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ENZYMATIQUE En'cOMP^TANT^ ^^^5,5}}^ cS S^f^T^ 

§2) La presente invention concerne notamment un poly- 
peptide compren ant un domaine cohesine de type II ca- 
ractense en ce qu'il est capable de se fixer a un domaine 
dockenne de type II, d'une proteine de charpente d ! un 
complexe enzymatique, d'une bacterie celluiolytique no- 
tamment de la proteine CipA de Clostridium thermocel'lum 

La presente invention fournit egalement une nouvelle 
protfm SdbA ("Scaffoldin dockerTn binding protefnTde 
Clostndium thermocellum. H } 

La presente invention fournit une composition enzymati- 
que comprenant plusieurs enzymes reunis par I'interme- 
diaire de molecules d'association comprenant des domai- 
nes cohesine et des domaines dockerine 
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POLYPEPTIDE COMPORTANT UN NOUVEAU DOMAINE COHESINE DE 
TYPE II, COMPOSITION ENZYMATIQUE EN COMPORTANT ET 
FRAGMENTS D'ADN CODANT POUR CES POLYPEPTIDES 

La presente invention concerne des domaines proteiques 
susceptibles d'interagir de facon non covalente et permettant d'agencer en 
complexes multiproteiques definis des polypeptides d'interet biochimique 
ou biologique pour les faire agir ensemble simultanement ou de maniere 
sequentielle afin de potentialiser leur synergic Elle concerne egalement 
les fragments d'ADN codant pour lesdits fragments proteiques. La presente 
invention concerne enfin des compositions enzymatiques permettant 
d'associer plusieurs enzymes pour les faire agir ensemble simultanement ou 
de maniere sequentielle afin de potentialiser leur synergie. Par exemple, 
dans le cas d'une action sequentielle, plusieurs types d'enzymes a activite 
15 differente peuvent agir successivement sur un meme melange de substrats. 

Les cellulases de plusieurs bacteries cellulolytiques sont 
organisees en complexe enzymatique comportant des sous-unites a activite 
catalytique interagissant avec un polypeptide sans activite catalytique 
appele "proteine de charpente". Cette interaction se realise via des 
20 domaines des sous-unites a activite catalytique appeles "domaines 
dockerine" et des domaines repetes de la proteine de charpente appeles 
"domaines cohesine" de taille plus importante que les domaines dockerine 
des unites catalytiques. 

A ce jour, seuls les domaines cohesine des proteines de 
i charpente ont ete identifies, ces domaines sont appeles dans la presente 
description, domaines cohesine de type I. 

En particulier, Clostridium thermnrellnm U ne bacterie Gram 
positive, thermophile et anaerobie, produit un complexe cellulolytique a 
masse moleculaire elevee denomme cellulosome (15. 16, 21). Ce complexe est 
initialement fixe a la surface cellulaire et est ensuite libere dans le milieu. 
Le cellulosome est compose d'au moins 15 polypeptides differents, 
comprenant de nombreuses fi-l,4-endoglucanases, au moins une 
cellobiohydrolase (23) et plusieurs hemicellulases (R-l,4-xylanases, 
lichenases) (22). Les composants catalytiques sont lies de maniere non 
covalente a une sous-unite de charpente non catalytique. denommee CipA 
(pour Cellulosome Integrating Protein) (37). 
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La proteine CipA et des composants similaires identifies dans 
les complexes cellulolytiques d'autres Clostridium cellulolytiques sont des 
proteines de charpente ou "scaffoldines" (2). 

Le mode de fixation des sous-unites catalytiques a la proteine 
Cip A a ete elucide (references n" 8, 33). Chaque sous-unite catalytique 
contient un segment duplique et conserve de 23 residus, constituant un 
domaine dockerine (2). Les domaines dockerine entrent en interaction avec 
un ensemble de domaines de liaison complementaires, ou domaines cohesine 
(2). 

Ces domaines, dont neuf copies sont presentes dans la sequence 
de CipA, sont tres semblables entre eux, particulierement les domaines 4 a 8, 
qui possedent plus de 95 % de residus identiques (11). 

II a ete montre que 1'on peut greffer un domaine dockerine sur 
une proteine ne faisant pas partie du cellulosome, par exemple 
15 l'endoglucanase CelC de C. thermocdlum, et que celle-ci acquien de ce fait 
la capacite de se fixer sur CipA (32). 

Cette observation a suggere la possibility d'utiliser 1'affinite 
entre domaines cohesine et domaines dockerine afin de creer des Complexes 
artificiels incorporant diverses proteines fusionnees a des domaines 
dockerine adequats, interagissant avec les domaines cohesine de la proteine 
de charpente (2, 32). De tels complexes pourraient trouver diverses 
applications biotechnologiques. En modifiant de maniere contrdlee, la 
composition de cellulosomes naturels, il pourrait etre possible d'optimiser 
leur activite vis-a-vis de substrats cellulosiques definis. On peut egalement 
25 envisager d'ameliorer le processus de degradation d'autres substrats 
complexes et insolubles, faisant appel a des enzymes de specificite 
complementaire, et dont Paction synergique serait potentialisee par une 
association en complexes multienzymatiques. De meme, 1'association 
physique d'enzymes effectuant des reactions sequentielles permet 
d'accelerer celles-ci lorsque la vitesse de diffusion du produit de la premiere 
reaction vers le deuxieme site reactionnel est limitante (L Bulow et 
K. Mosbach, Multienzyme systems obtained by gene fusion, Trends in 
Biotechnol. 9, 226-231). Par ailleurs, l'utilite de complexes multiproteiques 
n'est pas limitee a 1'association d'enzymes. La construction de complexes 
proteiques multifonctionnels est en effet susceptible de donner lieu a une 
grande varied d'applications, discutees dans la reference (2). 
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Cependant, la construction de complexes de stoechiometrie et 
de topologie definies se heurte a une difficult importante. Tous les 
domaines cohesine connus jusqu'a present sont tres semlables quant a leur 
sequence et a leur specificite de liaison. Par exemple. il a ete montre que 

5 CelS, une des sous-unites catalytiques du cellulosome, peut se lier de facon 
equivalente aux domaines cohesine (18b) 1, 2, et 9 de CipA, et 
vraisemblablement a tous les autres domaines cohesine de celle-ci. En 
consequence, il n'est pas possible de programmer la liaison d'une proteine 
de fusion, porteuse d'un domaine dockerine, a un domaine cohesine defini 

) de la proteine de charpente. 

Les domaines cohesine connus jusqu'a ce jour, possedant une 
forte similitude de sequence et de specificite de liaison, ont ete groupes sous 
le nom de domaines cohesine de type L De meme, les domaines dockerine 
portes par les sous-unites catalytiques du cellulosome, et capables de se lier 
aux domaines cohesine de type I, sont appeles domaines dockerine de type I. 

II existe cependant a l'extremite COOH-terminale de CipA un 
domaine presentant une similitude de sequence eloignee avec les domaines 
dockerine de type I, mais incapable de se lier aux domaines cohesine de type 
I. II permet aux proteines qui le portent de se fixer a trois polypeptides 
exocellulaires de C. thermocellum. La structure et la fonction de ces 
polypeptides sont inconnues (29). 

L'invention repose sur la caracterisation d'un gene, sdbA 
("scaffolding dockerin binding protein"), qui a ete clone et sequence, dont 
le produit SdbA est capable de se fixer specifiquement au domaine COOH- 
terminal de CipA, a l'exclusion des domaines dockerine de type I portes par 
les sous-unites catalytiques du cellulosome. La caracterisation du 
polypeptide SdbA montre qu'il comporte une region specifique responsable 
de la liaison avec le domaine COOH-terminal de CipA, et dont la sequence est 
tres differente de celle des domaines cohesine de type I. Cette region, ainsi 
que les segments polypeptidiques de sequence et de specificite d'interaction 
similaire, sont nouveaux et appeles domaines cohesine de type II. De meme, 
la region COOH-terminale de CipA est appelee domaine dockerine de type II. 
L'utilisation de domaines cohesine et dockerine de type II, eventuellement 
en conjonction avec des domaines cohesine et dockerine de type different 
(par exemple de type I) permet de construire des complexes proteiques 
mieux definis. 
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L'interet des domaines cohesine de type 11 selon la presente 
invention est de presenter une specificite de reconnaissance differente de 
celle des domaines cohesine de proteine de charpente connus 
precedemment, notamment ceux de la proteine CipA. 

La presente invention concerne plus particulierement des 
domaines cohesine de type II ainsi que des domaines dockerine de type II. 

La presente invention concerne notamment des composes sur 
lesquels sont capables de se fixer de facon covalente ou non au moins un 
domaine cohesine de type II ou un domaine dockerine de type II. 

Plus particulierement ces composes sont des peptides, 
polypeptides ou proteines, mais il peut s'agir de lipides ou de glycosides ou' 
bien de molecules de type mixte telles que proteoglycane, 
lipopolysaccharide par exemple. II est possible de prevoir d'autres types de 
molecules notamment des marqueurs ou par exemple des molecules 
chimiques therapeutiques ou non. 

Un domaine cohesine de type II est un domaine proteique qui 
se lie de facon specifique avec le domaine dockerine de CipA correspondant 
au domaine dockerine de type II tel qu'il sera defini ci-apres. De preference 
l'affinite du complexe ainsi forme sera au moins de 105 M/L tel que mesure 
par la methode decrite dans SALAMITOU et al (ref. 28). 

La sequence du domaine dockerine de CipA est celle 
correspondant a I'IDS n" 4. 

Un domaine cohesine de type II peut correspondre a des 
sequences naturelles, il peut notamment s'agir de domaine provenant de 
baeteries cellulolytiques notamment des Clostridium comme cela sera decrit 
ci-apres pour SdbA. 

Mais de tels domaines sont egalement presents sur les 
prolines OlpB et ORF2p. 

La notion de domaine cohesine de type II incorpore egalement 
des sequences proteiques non naturelles pour autant qu'elles puissent se 
lier avec le domaine dockerine de type II de CipA. 

II peut alors s'agir notamment de domaines homologues aux 
domaines naturels ou de fragments de ces domaines mais il est possible de 
prevoir egalement des domaines entierement synthetiques obtenus par 
exemple en utilisant certains acides amines non naturels, ou bien en 
utilisant des Elements ameliorant l'affinite. 
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Par "proteine homologue" ou "sequence homologue" on 
entend selon la presente invention toute proteine, polypeptide ou peptide 
presentant une homologie de sequence d'au moins 25 % par rapport au 
domaine cohesine de type II notamment celui correspond™ a SdbA ladite 
5 sequence conservant les proprietes de liaison specifique au domaine 
dockenne concerne, notamment au domaine dockerine de CipA. 

Par "fragment de proteines" ou "fragment de sequences" on 
entend un fragment d'au moins 50 acides amines conservant les proprietes 
de haison specifique au domaine dockerine concerne, notamment au 
10 domaine dockerine de CipA. 

H faut rappeler qu'un domaine cohesine de type II doit 
presenter une bonne affinite pour le domaine dockerine correspondant 
mats ne doit presenter que pas ou peu d'affinite pour le domaine dockerine 
de type different notamment de type I. 

La presente invention concerne egalement les composes 
component un domaine dockerine de type II, c'est a dire un domaine 
proteique qui se lie de fa C on specifique avec un domaine cohesine de type II 
et ce avec une affinite d'au moins 10S M/L mesure comme precedemment. 

Cette definition n'est pas redondante, en effet il faut bien 
comprendre qu'a partir du domaine dockerine de type II de CipA il est 
possible de definir un certain nombre de domain* cohesine de type II 
lesquels peuvent permettre de definir de nouveaux domaines dockerine de 
type II lesquels comme precedemment peuvent etre d'origine naturelle 
ma,s peuvent etre constitues de fragments de domaines de sequences' 
homologue* ou bien eventuellement comme cela a ete indique 
precedemment, comporter des sequences entierement synthetiques avec 
Eventuellement des acides amines non naturels. 

La liaison entre un domaine cohesine et un domaine dockerine 
de type II sera denommee ci-apres par simplification interaction C/D de 
type II, le complexe ainsi forme etant denomme soit complexe C/D de type II 
lorsqu'il ne comporte qu'une seule interaction C/D de type II soit complexe 
multimerique lorsqu'il comporte au moins une interaction C/D autre que de 
type II, interaction C/D de type I par exemple et/ou d'autres formes 
d'mteractions : avidine/biotine, antigene/anticorps par exemple. De 
preference, les complexes multimerique selon l'invention component 
essentiellement des interactions de type C/D. 
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Ainsi la presente invention, grace a ces differentes 
interactions, permet de cibler integration dans un complexe d'enzymes 
differentes et de fournir un complexe artificiel utilisant notamment une 
proteine de charpente comportant des domaines dockerine de specificite de 
liaisons differentes afin d'agencer de maniere specifique diverses proteines 
porteuses de domaines cohesine correspondants. 

Plus particulierement, la presente invention fournit un 
polypeptide ayant un domaine cohesine de type II, selon invention 
caracterise en ce qu'il est capable de se fixer au domaine dockerine COOH- 
terminal de la proteine de charpente CipA du complexe cellulolytique de 
Clostrid i um thermocellum . Toute proteine ou peptide presentant ou 
comportant une sequence ayant plus de 25 % de residus d'acides amines 
identiques avec un domaine cohesine de type II de SdbA entre dans la 
definition de I'invention. En particulier, il s'agit d'une proteine de 
15 Clostridium thermocellum ou d'un fragment de celle-ci. 

Dans un mode plus particulier de realisation, la presente 
invention a pour objet une proteine SdbA (-scaffolding dockerin binding 
protein") de Clostridium thermocHlnm de poids moleculaire apparent de 
68kDa ( ± 10 %) comportant un domaine cohesine qui est capable de se fixer 
avec un domaine dockerine de type II notamment de.la proteine CipA de 
Clostridiu m thermnrpllnm 

Le polypeptide SdbA du complexe cellulolytique de Clostridium 
<hermocell„m , a une sequence de 631 acides amines substantiellement telle 
que representee sur 1'IDS n'l. 

La presente invention a permis d'identifier le domaine de la 
proteine SdbA capables de se fixer au domaine dockerine de CipA. En 
particulier, le domaine cohesine comprend une sequence de la region N- 
terminale de la proteine de 184 acides amines substantiellement telle que 
representee dans 1'IDS n' 1 de l'acide amine n' 27 a I'acide amine n' 210 de 
la sequence de la proteine ou une sequence homologue ou un fragment de 
cette sequence ou d'une sequence homologue capable de se fixer a un 
domaine dockerine de la proteine CipA, par exemple, un fragment de ces 
sequences d'au moins 50 acides amines capable de se fixer a un domaine 
dockerine de la proteine CipA. 
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La presente invention a permis d'identifier des domaines 
cohesine de type II d'autres proteines de Clostridium rh.m,^,,.^ en 
particulier des proteines OlpB et ORF2p (9, 17). SdbA presente une 
homologie de sequence avec ies sequences repetees N-terminale de OlpB et 
ORF2p. 

Le segment polypeptidique comprenant les residus 26-199 de la 
proteine OlpB, qui presente une forte similitude de sequence avec les residus 
27-191 de SdbA, peut egalement fixer le domaine C-terminal de CipA 

Ainsi outre des fragments de la proteine SdbA ou d'une 
proteine homologue interagissant avec un domaine dockerine d'une 
proteine de charpente selon Invention, la presente invention a done 
Egalement pour objet des fragments de OlpB et ORF2p, de sequences 
similaires au domaine cohesine de type II de SdbA. 

La presente invention a done pour objet tout polypeptide 
comprenant comme domaine cohesine la sequence correspondant 
substantiellement a l'une des sequences de la proteine OlpB choisies parmi 
la sequence des acides amines n* 28 au n° 192, la sequence des acides amines 
n° 207 au n° 363, la sequence des acides amines n° 409 au n° 565 et la 
sequence des acides amines n' 607 au n° 763 de 1'IDS n« 2 ou une sequence 
homologue a l'une de ces sequences ou un fragment de ces sequences d'au 
moins 50 acides amines, capable de se fixer a un domaine dockerine de la 
proteine CipA. 

La presente invention a egalement pour objet tout polypeptide 
comprenant un domaine cohesine qui a substantiellement pour sequence en 
25 acides amines, une sequence de la proteine ORF2p choisie parmi la sequence 
des acides amines n' 38 a 195 et la sequence des acides- amines n' 209 a 365 
de 1'IDS n' 3. ou une sequence homologue a ces sequences ou un fragment 
de ces sequences d'au moins 50 acides amines capable de se fixer a un 
domaine dockerine de la proteine CipA. 

La presente invention a egalement pour objet tout polypeptide 
qui comporte un segment de sequence de plus de 50 acides amines 
presentam plus de 25 % de residus identiques avec 1'un des segments de 
1'IDS n« 1, de 1'IDS n' 2, ou de 1'IDS n» 3 decrits ci-dessus, et capable de fixer 
le domaine dockerine de CipA. 



20 



30 



8 



2748479 



10 



Parmi les composes selon la presente invention comportant un 
domaine cohesine de type II ou dockerine de type II il faut citer par exemple 
les enzymes, les recepteurs, les antigenes, les anticorps ou un de leurs 
fragments comportant entre 20 et 100 acides amines. 

Dans le cas particulier ou la proteine est une enzyme, il 
s'agira par exemple d'une celluiase permettant une meilleure hydrolyse de 
substrat cellulosique ou tout autre type d'enzyme hydrolytique. 

Dans le cas ou le compose selon 1 'invention est 
essentiellement une proteine, les parties de la proteine peuvent etre 
fusionnees audit domaine cohesine ou dockerine par l'intermediaire d'un 
fragment polypeptidique. La liaison peut etre egalement une liaison non 
covalente, par exemple une liaison conformationnelle. 

La presente invention a egalement pour objet un fragment 
d'ADN codant pour un compose selon l'invention lorsque celui-ci est un 
15 polypeptide ou codant pour la proteine SdbA ou un fragment de celle-ci,. 
lorsque le compose selon l'invention comporte d'autres elements que le 
polypeptide ou la proteine , l'invention concerne egalement le fragment 
d'ADN codant pour le polypeptide ou la proteine. 

La presente invention repose en partie sur le clonage 
20 moleculaire et le sequencage du gene denomme sdbA, dont le produit se fixe 
specifiquement au domaine dockerine porte par CipA. Des segments du gene 
ont ete sous-clones et exprimes separement, pour permettre d'identifier la 
region du polypeptide responsable de la fixation du domaine dockerine de 
CipA. 11 s'agit du fragment d'ADN comprenant un cadre de lecture ouvert 
de 1 893 nucleotides, et codant pour le polypeptide de 631 aminoacides 
denomme SdbA, ayant une masse moleculaire calculee de 68 577 Da. 

La presente invention a done egalement pour objet un 
fragment d'ADN represents substantiellement par la sequence 1 a 1893 de 
TIDS n' 1 codant pour la proteine SdbA ainsi qu'une souche de E. coli 
deposee a la CNCM de 1'Institut Pasteur sous le n° 1-1684 transform* par le 
plasmide PCT1830 comportant un fragment d'ADN correspondant a cette 
sequence codant pour la proteine SdbA. 

La presente invention a en outre pour objet un fragment 
d'ADN qui a pour sequence essentiellement les nucleotides 82 a 573 dans 
l'IDS n° 1 codant pour le domaine cohesine de la proteine SdbA ainsi qu'une 
souche de E_coli deposee a la CNCM de I'lnstitut Pasteur sous le n° 1-1683 
transform* par le plasmide pCT1801 comportant un fragment d'ADN 
correspondant a cette sequence de 1 893 pb. 
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De meme la presente invention a egalement pour objet un 
fragment d'ADN caracterise en ce qu'il a substantiellement pour sequence 
Tune des sequences codant pour un domaine cohesine de la proteine OlpB 
choisies parmi la sequence des nucleotides 85 a 570, la sequence des 
5 nucleotides 619 a 1095, la sequence des nucleotides 1225 a 1689 et la 
sequence des nucleotides 1819 a 2189 dans 1'IDS n° 2 ainsi qu'un fragment 
d'ADN caracterise en ce qu'il a substantiellement pour sequence Tune des 
sequences codant pour un domaine cohesine de ORF2 choisies parmi la 
sequence des nucleotides 109 a 582 et la sequence des nucleotides n° 625 a 
10 1092 dans l'IDS n e 3. 

La presente invention a egalement pour objet des fragments 
d'ADN qui ont pour une sequence une sequence complementaire ou 
homologue ou complementaire de l'homologue d'un des fragments d'ADN 
tels que definis ci-dessus. 
15 P 31 " "fragment d'ADN homologue" on entend des fragments qui 

codent pour des polypeptides homologues comme cela a ete decrit 
precedemment. 

La presente invention a egalement pour objet des fragments 
d'ADN capables de s'hybrider dans des conditions faiblement stringentes 
(19) avec un fragment d'ADN selon 1'invention tel que defini 
precedemment. 

La presente invention concerne egalement des complexes 
comportant au moins un compose tel que decrit precedemment lie par une 
interaction C/D de type II avec un compose comportant au moins un 
25 domaine dockerine de type II, chaque compose constituant un element du 
complexe. 

II s'agit notamment d'un complexe multimerique caracterise 
en ce que au moins deux des "elements" du complexe sont lies par une 
interaction C/D de type II. De preference Ie complexe comportera au moins 
30 trois "elements" dont deux des "elements" sont lies par une interaction 
autre que C/D de type II par exemple par une interaction C/D de type I. 

Par "element" on designera : 
un compose selon 1'invention qui pourra eventuellement comporter un 
autre domaine de liaison : interaction C/D de type I par exemple, ou bien 
un compose comportant un seul domaine de liaison different de 
Interaction C/D de type II mais capable de se fixer sur un compose selon 
1'invention. 
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En utilisant judicieusement les divers types d 'interactions, il 
est possible d'obtenir des complexes ayant des structures variees. La 
structure du complexe multimerique ou la structure du complexe de type II 
selon l'invention peuvent etre ainsi de type lineaire ou greffee ou bien de 
type mixte. 

Un complexe multimerique de type lineaire comprend un 
enchainement de composes selon l'invention, ne comportant que deux 
domaines de liaison chacun. Un tel complexe est represent* a la figure 1 B. 

Au contraire, une structure greffee comporte en general une 
molecule de structure avec un certain nombre de domaines de liaison et des 
greffons proteines par exemple, ne comportant qu'un seul domaine, ce type 
de structure est schematise a la figure IA et IC. 

Bien entendu, il est possible de prevoir des structures qui 
continent ces deux structures de base, on peut meme prevoir des 
IS structures cycliques. 

En effectuant une fixation de fa C on sequentielle on peut ainsi 
obtenir un complexe de structure bien defini, ce qui est particulierement 
interessant pour obtenir des complexes enzymatiques. 

Les composes selon la presente invention peuvent etre obtenus 
par genie genetique lorsqu'il s'agit de proteines. Lorsque les composes 
component des elements non proteiques, ceux-ci peuvent etre greffes par 
des moyens connus notamment par reactions chimiques pour les liaisons 
covalentes ou par des liaisons non covalentes. 

Une premiere fa C on de mettre en oeuvre l'invention consiste a 
fusionner au moyen du genie genetique des domaines confine 
respectivement dockerines de type different, de fa C on a construire des 
proteines de charpente comportant ces domaines en nombre et en ordre 
defmis. Parallelement, des domaines dockerines respectivement cohesines 
adequats sont greffes sur des proteines etrangeres, par exemple des 
enzymes, que 1'on desire associer dans un ordre choisi le long de la 
proteine de charpente, on obtient ainsi une structure greffee 
correspondant a la figure 1A ou C. Ce type de mise en oeuvre conduit a des 
complexes se rapprochant du cellulosome naturel. 

Ces complexes selon l'invention pourront comprendre de 
preference pour chaque compose des segments peptidiques de jonction. de 
longueur et de sequence appropriees. Par exemple, les constructions 
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reprendront les segments de jonction naturels riches en proline et/ou 
hydroxy amino acides presents dans les polypeptides naturels. 
L'incorporation des proteines que I'on desire associer s'effectue par 
l'intermediaire d'un domaine cohesine ou dockerine greffe, par exemple au 
moyen du genie genetique. 

Dans le complexe selon la presente invention, le nombre 
d'elements du multimere est compris entre 1 et 50 elements associes 
entre eux et de preference 1 et 20. 

Dans un mode de realisation, chaque element du complexe 
comprend des domaines cohesines ou des domaines dockerine. 

' Mais il est possible de prevoir des elements comportant des 
domaines cohesines et dockerines. 

La presente invention a egalement pour objet un fragment 
d'ADN codant pour un element du complexe selon l'invention. 

D'une maniere generate, la presente invention a egalement 
pour objet les vecteurs d'expression comprenant un fragment d'ADN selon 
l'invention place sous le controle d'elements assurant son expression dans 
une cellule hdte de type eucaryote ou dans un hote bacterien tel qu'une 
souche de EsSih. transformee par un vecteur d'expression selon l'invention, 
et un procede de preparation d'un polypeptide selon l'invention ou d'une' 
proteine selon l'invention caracterise en ce qu'on realise la culture de 
cellules h6tes transformees a l'aide d'un vecteur d'expression selon 
l'invention ou par culture d'une souche de Exoh selon l'invention. 

Enfin la presente invention fournit une composition 
enzymatique comprenant plusieurs enzymes reunis afins de les faire agir 
ensemble et le cas echeant potentialiser leur synergie, par l'intermediaire 
d'un complexe multimerique sur chacun desquels est couple une enzyme 
differente. 

La presente invention concerne des compositions comportant 
au moins un complexe multimerique presentant au moins un domaine 
d'interaction C/D de type II. 

En particulier, une composition enzymatique selon l'invention 
peut comprendre deux enzymes reunies afin de les faire agir ensemble et le 
cas echeant potentialiser leur synergie, par l'intermediaire d'un complexe 
selon l'invention comportant une premiere enzyme, et une seconde enzyme 
liee par interaction C/D de type II. 
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Dans un. variante avamageuse de realisation, led,, complex, 
otnpor,. „n po.ypepride compr.nan, un domaine cohere selon 
. mvennon, coupie a un domaine dockerine de >a pro.ein. Cip A coup* a 

dockerme d un. SO us unit. cata. yti q„ e da complex. c.ll„,ol y ,iq„e de 
Clpstndmm thermorollum couple a un. seconde e„ 2yn , e , qui se au 
domaine coMsine. 1 ra au 

Us complexes multim.Sriqu.s selon llnvention sont plus 

.0 no 2 ■', em r' U "" Sab,eS '° rSqUe '" dUS ""«-« ' Z 

10 P°~en. la 5y „.rgi. d.s elements des comply, notamm.n, lorsqu-i, 
s agit d'une composition en zy matique. 

La presente invention concern. <Sgalem.nt un proddi de 
de,««„n d'un antigene ou d'un an.icorps par ,a mise en contact d'un 
15 ZT" mU,,imW<1Ue •*» — un. solution comenan , „„ 

15 anttcorps ou un antigen, d'imeret ., la revelation d. la reaction .„ tre ,e 
comply multimtSrique .« ■•antigin. ou Panticorps. 

la relation p.ut s. fair, par marquag. radioactif du 
complexe anttcorps ou an.igene ou par visualisation .„ „,m S a„ t des 
marquages non isotopiques. par exempl. d. type avidin. - bio.ine ou tou, 
20 autre marquage Equivalent. 

D'au.res caracSristiqu.s e. avantages de la presente invention 
apparattron, a la lumiere de ,a description d.taill.e qui va sulvre C „ 
descnption fait reference aux figures 14 6. 

25 selon l,„v.„L n8Urc 1 SCMma,iSe 13 ~< ^ 

La figure 2 represent un. carte d. restriction d. la region 
comprenan, I. gl„e sdbA, e, construction de pCTl 8 30. pCTlMl et pCT lo 32 
coda„ t pou r SdbA-N. SdbA-C ., SdbA, respective, E: EcoRI; K. Kpnl; ft 
M. sa: Sal, Sc: Sacl; Sp: Sphl; SCM: site d. clonage tnu„ip,.. Us posit,™ 
30 des segments codan, pour les div.rses regions identifies dans SdbA son 
nd.qu.es par des cadres de d.ss,„ s different*. Les nombres se reftren, T"a 
equ.nc. nudeotidiqu. (figur. 3,. L.s nucleotide, qui on, et, changes dan 
U Sequence amp ifie. par PGR son, Indiqu* en gras. L'ADN 

S r^dus I ^ * rait m ' nCe - * S '" UenCe * P< * 30 ' «*»' ^r 6 
rEstdus h*„d.ne, es, represent., par un cadr. qui „•.« pas a .■ech.ll. La 

transection de sdbA va de gauch. a droit.. 
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La figure 3 represente une sequence hucleotidique de la 
region codant pour le gene sdbA. Le site de liaison ribosomique suppose est 
souligne\ Les diverses regions identifiees dans SdbA sont indiquees par des 
cadres de meme dessin que sur la figure 2. SLR: site de liaison ribosomique. 

La figure 4 represente ralignement du domaine cohesine de 
SdbA et des domaines cohesine de OlpB et ORF2p (9). Les residus qui sont 
identiques ou similaires a la majority des sequences representees sont 
indiques sur un fond ombre\ La numerotation des residus commence avec 
des codons d'initiation supposes. Les aminoacides similaires sont: F, I, V, L et 
M; R et K; S et T; D et E; N et Oj et F, Y et W. 

La figure 5 represente la similarity entre les residus 264 a 275 
de SdbA et d'un motif present dans les proteines M de Streptococcus 
PYOReneg. Ml: (numero de depot GenBank x72752), M9 (24), PAM (3), 
M12 (26). Pour chaque proteine, la numerotation commence avec le codon 
d'initation suppose. Les residus qui sont identiques ou similaires dans la 
majority des sequences representees sont indiques sur un fond ombre. Les 
criteres de similarity sont les memes que pour la figure 4. 

La figure 6 represente l'alignement des segments repels COOH- 
terminaux de SdbA avec les sequences similaires d'autres proteines de 
suface cellulaire. OlpA: proteine A de couche externe de C. thermor P ll„m (9 ); 
OlpB: proteine B de couche externe de C. thermor P ll,,m (9 ); Pul: pu llulanase 
de T. thermosulfuripenes EMI (20); Bsph: proteine de couche S de L 
SPhaericyg (4). Pour chaque proteine, la numeration commence au niveau 
du codon d'initiation suppose. Les residus qui sont semblables ou identiques 
dans au moins huit segments sont indiques sur fond ombre. Les criteres de 
similarity sont les memes que pour la figure 4. 

I. MATERIEL ET METHODES 

1. Souche? bacteriennps. nlaxminVs et conditions de rnltnrp 

Les souches bacteriennes et les plasmides utilises dans cette 
ytude sont rycapituiys dans le tableau 1. La souche TGI d' Escherichin mli a 
yty utilisye pour le clonage et le syquencage. Les protyines ont yty produites 
dans E coli Ml 5 (pREP4). 

C. thermocellum a ete cultive dans des conditions anayrobies, a 
60°C dans du milieu CM3-3 complete avec 5 g de cellobiose par litre (31). 
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On a cultive E coli a 37°C. dans du milieu de Luria Bertani (19) 
On a ajoute des antibiotiques en fonction de S plasmides presents dans l'hote- 
100 Mg/ml de ticarcilline, 30 M g/ml de chloramphenicol, 25 ug/ml de 
kanamycine. 
5 2. Manipula tions d'Ap^I 

L'ADN genomique de C. thermal!.,™ a et e purifie par la 
methode de Marmur modifiee par Quiviger et coll. (2S). D'autres 
manipulations d'ADN ont ete effectuees selon Ausubel et coll. (1). On a utilise 
les enzymes de restriction en suivant les recommandations des fournisseurs. 

Les amor "s oligonucleotidiques ont ete synthetisees par 
Eurogentec SA (Sering, Belgique) ou Genset SA (Paris, France). On a effectue 
l'amplification par PCR selon Saiki et coll. (27), en utilisant 100 pmoles de 
chaque amorce oligonucleotidique dans un melange reactionnel de 100 pi 
MgCl 2 a ete ajoute jusqu'a une concentration finale de 2 mM. On a effectue 
15 35 cycles d 'amplification. Les parametres etaient les suivants: hybridation: 1 
minute a 65'C; extension: 1 minute a 72'C; et denaturation: 1 minute a 94'C 
On a toujours verifie la sequence des fragments clones obtenus par PCR. 
3. Construction de ]a hanoue pennmin , ie de r th^rnioceHum, 

L'ADN de C- thermocellnm a ete partiellement digere par 
20 Sau3Ai, et les fragments ont ete separes sur un gradient de saccharose Des 
fragments de plus de 12 kb ont ete inseres dans le plasmide pUC18 coupe par 
BamHI, et traites par de la phosphatase alcaline bacterienne (Ready-to-go 
Pharmacia). Des cellules de JL_coli TGI ont ete transforms par 
electroporation et etalees en presence de 0,8 mg de 
25 5-bromo-4-chloro-3-indolyl-p-D-galactoside par plaque et 0,2 mg 
d'isopropyl-p-D-thiogalactoside (1PTG) par plaque. 

4. Crjb)age de colonie et reperape de nrnnW trnn.f^c ~~^ nr 

On a crible comme decrit (8) les clones recombinants, en 
recherchant la fixation de CelC-DsCipA marquee au I2$i. 

» Pour identifier les polypeptides porteurs de domaines cohesine 

de type II, on a analyse les proteines par SDS-PAGE (14) et on les a 
tranferees sur une membrane en Nylon (Hybond-N + , Amersham) (1). La 
membrane a ete mise a incuber avec CelC-DsCelD et CelC-DsCipA marquees au 
1251, lavee et autoradiographic comme decrit precedemment (29, 32). 

35 5. Sequences d'ADN et anal yse des .^ ■i.nrpc 
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Les fragments de restriction appropries de pCT180l ont ete 
sous-clones dans le plasmide pBCSK, et on a engendre des deletions 
emboitees en utilisant de I'exonudease 111 et de la nuclease SI (necessaire 
Erase-a-base, Promega), comme indique par le fournisseur. On a sequence 
5 les matrices monocatenaires conformemem a la methode de terminaison de 
chaine didesoxy de Sanger et coll. (30), en utilisant les necessaires 
Sequenase et Taquence (USB-Amersham). La sequence a ete determinee au 
moms une fois sur chaque brin. L'analyse par ordinateur des donnees des 
sequences a ete effectuee au moyen du logiciel Sequence Analysis Software 
Package de Genetic Computer Group, version 7 (University of Wisconsin) 
(6). 

6. Construction de clone, rt'evnr^inn p . iri fi fa , innt Ha r ^., inr 

En utilisant le vecteur pQ£-30, on a construit des clones 
produisant en exces des formes de SdbA intactes ou comprenant des 
d^lenons. Ainsi, on a fait fusionner la sequence codant pour le polypeptide 
recherche avec un segment codant pour 6 residus His, pour faciliter la 
purification (13). Afin de doner .e fragment codant pour le domaine 
NH 2 -terminal de SdbA, on a synthetise par PGR un fragment de 670 pb 
encadre par BamHI et PstI (figure 1). L'amorce directe etait 

S'-CTG CCG GCG GGA TCC GCA AGG GCA GAT-3' 
et l'amorce inverse etait 

5 '-ACT TTT GCA GAA TTT TCT GCA GGC G-3\ 
fragment a «te insere entre les sites BamHI et PstI de pQ£ 30, pour donner 
PCT1830. Le polypeptide code par pCT1830 a ete denomme SdbA-N. 

Pour doner la region codant pour les domaines COOHterminaux 
de SdbA, on a fait digerer par BamHI le plasmide pCTlSOl. Les extremites ont 
6te completes et converges en extremites franches a Paide du fragment de 
Klenow de PADN polymerase. Apres nouvelle coupure par PstI, le fragment 
de 1,4 kb, codant pour les domaines COOH-terminaux, a ete purifie et insere 
dans le vecteur pQE-30 qui avait ete dig^re par HindHI, traite par le 
fragment de Klenow de PADN polymerase et digere a nouveau par PstI Le 
Plasmide resultant a ete denomme pCT1831, et le polypeptide code a ete 
denommg SdbA-C. 

Le plasmide pCT1832, exprimant la sequence complete de SdbA 
a ete construit par insertion du fragment BamH-PstI de 670 pb (voir plus' 
haut) dans le plasmide pCTl 83 1 digere par BamHI et PstI. 
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La production et la purification des proteines ont ete 
effectuees au moyen du systeme Qjaexpress (QJAGEN Inc.). Des cultures de 1 
litre ont ete mises a incuber a 37'C jusqu'a une DO 600 de 0,7. On y a ensuite 
ajoute de l'IPTG jusqu'a une concentration finale de 0,3 mM, et les cultures 
ont ete mises a nouveau a incuber pendant 5 heures a 37'C. On a remis les 
cellules en suspension dans 80 ml de Tris.HCl 50 mM, P H 7.5 (tampon A) et on 
les a lysees au moyen d'une presse de French Aminco, sous une pression de 
100 MPa. On a centrifuge 1'extrait a 9 000 g pendant 20 minutes afin 
d ehminer les debris cellulaires. On a injecte le surnageant dans une 
colonne de 8 ml de resine Ni-NTA equilibree avec du tampon A, on a lave la 
colonne ayec du tampon A et on Pa eluee avec le meme tampon contenant 
250 mM d imidazole. Les fractions eluees ont ete dialysees pendant une nuit a 
4-C, comre 1 litre de tampon A. Les proteines purifiees ont ete conserves a 



7. Petermination de sepuenre aminn-r P r m in a i e d'nmin^H,,, 

50 pmoles de chaque polypeptide a sequencer ont ete separees 
par SDS-PAGE et transferees pendant une nuit, a la temperature ambiante a 
850 mA sur une membrane en PVDF [ P oly(chIorure de vinylidene)] 
hydrophobe (Problott, Applied Biosystem) traitee par du methanol a 100 % 
au moyen d'un systeme Trans-Blot Cell (BioRad) contenant 50 mM de Tris 
(base), 50 mM de tampon acide borique. On a colore les bandes au noir amide 
& 0,003 %, on les a excisees, et on a determine la sequence amino-terminale 
des polypeptides par la methode d'Edman. en utilisant un appareil de 
sequencage 473A ou Procise HT (Applied Biosystem). 

II. RESULTATS 
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1. donage d'un gene codant pour un nnW™^ , e fivanr ^ „_ nT 
au domaine dockerine Hp r ip A 

On a crible 1 600 clones recombinants en recherchant la 
fixanon de CelC-D S CipA marquee au 125,. H uit clones independants ont ete 
marques specifiquement. Les controles effectues avec de la CelC-DsCelD 
marquee au 125, 0 „t indique que ,a fixation etait specifique pour le domaine 
dockerine de CipA (figure 2). 

Tous les segments clones s'hybrident avec la meme region du 
genome de C. thermocellnm (donnees non representees), dont la carte est 
representee sur la figure 1. Ces cartes de restriction sont en accord avec les 
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fragments de restriction reveles par analyse Southern blot dans 1'ADN de C 
Sheimozsllum (donnees non representees,. Les segments ne s'hybridaiem 
pas et n'ont pas de fragments de restriction en commun avec la region 

5 c.onr nam ^ " ° IPA (9> - 0305 ^ r68i ° n C ° UVerte Ies intents 
5 clones, u„ segment de 1,6 kb, compris entre le site Pstl et la limite gauche de 

imsert pone par pCTlSOl (figure „. est necessaire et suffisant 

pour un polypeptide capable de fixer le domaine dockerine de CipA. Le gene 

correspondant a ete denomme sdbA. 

2- AnalvSf d o | a stvp ipprg 

"0 La sequence du g 4ne d e la SdbA es, represent sur la figure 3 

« Z?r dan ' e C ° mPrend ' 893 nUC,fe " deS - U c ° d °" d '"»«a«°n ATC 
es, precede d un si.e de Uaison ribosomique suppose. Le polypeptide code 

compose de 631 aminoacides, a one masse moleculaire caleulee de 68 577 Da' 
La structure de domaine* de la protelne est representee sur les figures 1 e, 3 
Un pepnde signal suppose de 26 residus aminoacide es, localise a Textremite 
NH 2 -,erm,nale du polypeptide (36). Des alignemen.s avec d'autres proteines 
tndiquen, la presence de trots regions distinctes dans SdbA. La region 
N-.erm.nafc. composee de ,56 residus aminoacide. es, semb.ab.e ,„" 

ORF2p de C. thermocellum. deux polypeptides don, ,es genes son, localises 
™med,a,emem en aval de cipA (9) , figure 4). Un espaceur de 56 residus 
nche „ .w^r/ser. separe cette region du reste de ,a proteine. La region 

Cene reg,„„ comprend une courte sequence d'aminoacides semblable a un 
~ danS lK Pr ° ,<lneS M * S <~P'°-ccus Pyogenes (figure 5) 

semb ab.es aux segments denommes SLH (S-layer homologous . homologue* 
a couche S), presents dans plusieurs proteines localises sur la surface 
cellulatre de diverse* bacteries (9. 1 8) (figure 6) 
3- Idem i fimhn du donninn r- .imThi, h. , n p.., ., „ 

dockerm. rjpfl 

domain, ri C f '" d ' idemlfiCr " doraal " e responsable de la fixation du 
domatne dockenne de CipA, on a compare les propriety de liaison de 
po.ypept.des derives de SdbA. Le gene sdbA e, des sous-fragment 
appropr. s on, « f usi o»„ 4s avec „ vecleur 

Pour HlS6 , e, lea polypeptides correspondents on, i,t purifi4s par 
chroma,ographie d-affinite a Ni (24,. Us masses moleculaire* apparen.es de 
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la proline SdbA intacte et du fragment contenant les regions centrale et 
C-terminale sent de 60 kDa et 36 kDa, respectivement, en accord avec les 
masses predites a partir de la sequence (figure 7A). La masse moleculaire 
apparente du domaine NH 2 -terminal etait egale a 35 kDa, et etait superieure 
5 a la masse moleculaire calculi a partir de la sequence (22 715 Da). Toutefois 
le fragment comprend le segment de jonction riche en residus Pro ce qui 
peut exphquer une lente migration dans la SDS-PAGE (10). Les preparations 
de SdbA intacte et du polypeptide COOH-terminal contenaient Tune et l'autre 
un second polypeptide de 24 kDa. Dans les deux cas, la sequence 
NH 2 -terminale de ce polypeptide est SKYAVSY, ce qui indique qu'elle est 
d^rivee de la region COOH-terminale contenant les segments SLH repetes de 
SdbA. Etant donne que les segments SLH repetes ne contiennent pas de 
groupment de residus histidine, le fragment COOH-terminal est 
probablement lie aux polypeptides intacts. En effet, il a ete rapporte que des 
polypeptides contenant des segments SLH repetes s'auto-assodent (17) 

rv,r n r- CO, ° nieS * en utilisant com ™ "nde 

CelC-DsCpA marquee au 125,. a confirme que |e produit du ^ ^ ^ 

fixan au domaine dockerine de CipA (figure 7B). La fixation au fragment 
NH 2 -terminal est moins intense, mais decelable. On n'a pas pu dueler de 
fixation au fragment C-terminal. Etant donn* que la region NH 2 -terminale 
de SdbA est semblable aux segments NH 2 -terminaux repetes d'OlpB on a 
contr61e si CelC-DsCipA se fixait a MalE-ORFlp-N, une proteine chimere 
comprenant le premier segment NH r t erm inal repete d'OlpB fusionne a la 
proteine de fixation du maltose, MalE (17). La colonne 5 de la figure 7B 
indique que MalE-ORFlp-N a ete marquee. Aucune fixation n'a ete observee 
avec MalE-ORFlp-C, qui consiste en les segments SLH C-terminaux d'OlpB 
fustonnes a MalE Ni SdbA, ni ORFlp-N, ni ORFlp-C n'ont ete marquees apres 
mcubat.on avec CelC-DsCelD marquee au us, (donnees non representees ^ 

Des proteines portant des domaines dockerine peuvent etre 
marquees au 125, et utilisees comme sondes pour la detection de proteines 
contenant des domaines cohesine complementaires (29, 32). Ainsi, on peut 
.soler des clones exprimant des polypeptides contenant des domaines 
cohesme, et on peut identifier les domaines cohesine (8). Dans la presente 
mventfon, on a applique la meme strategie pour doner le gene sdbA et pour 
identtfier le domaine cohesine responsable de la fixation du domaine 
dockerine de CipA. On a obtenu un seul gene. I. se peut que d'autres genes 
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codant pour des proteines ayant des proprietes similaires aient echappe a la 
detection, en raison d'une absence d'expression spontanee. 

Sur les trois polypeptides, pl70, plI6 et p60, qui se sont 
precedemment reveles fixer le domaine dockerine de CipA (29), pl70 et pl!6 
sont trop longs pour etre codes par sdbA, meme eh tenant compte de 
modifications post-traductionnelles, telles qu'une glycosylation. Le 
polypeptide p60 se revile le seul candidat possible. 

La figure 7 indique que le domaine cohesine se trouve dans la 
region NH 2 -proximale de SdbA. Le signal detecte avec le fragment 
NH 2 -terminal est plus faible qu'avec la proteine entiere; toutefois, on n'a pu 
detecter aucun signal en utilisant une quantite semblable du fragment 
COOH-terminal. Le fait de tronquer SdbA peut avoir affecte I'affinite ou la 
stabilite du polypeptide NH 2 -terminal residuel. Ou encore, la fixation a la 
nitrocellulose peut alterer la conformation du domaine cohesine, tandis que 
15 la fixation de la proteine intacte a la membrane peut etre mediee par des 
regions du polypeptide non requises pour la fixation de la sonde marquee. 

Contrairement au domaine dockerine de CipA, qui est 
clairement apparent aux domaines dockerine presents dans les sous-unites 
catalytiques, le domaine cohesine de SdbA ne presente pas de similarity 
D evidente avec les domaines cohesine de CipA et OIpA. Toutefois, il est 
semblable aux segments repetes localises a I'extremite NH 2 -terminale de 
OlpB et ORF2p (9). En effet, CelC-DsCipA marquee au 12 51 se fixe 
specifiquement au premier segment repete NH 2 -terminaI d'OlpB. Ainsi, les 
domaines NH2-terminaux de SdbA, OlpB et tres probablement ORF2p 
! representent un nouveau type de domaine cohesine. C'est pourquoi, selon la 
presente invention on les denomme "domaines cohesine de type 11", et 
-domaines cohesine de type I" les domaines cohesine rencontres dans CipA 
et a I'extremite NH 2 -terminale d'OlpA. 

Les trois proteines OlpB, ORF2p et SdbA, qui sont connues 
comme contenant les domaines cohesine de type II, portent egalement des 
segments repetes SLH. Dans tous les cas etudies jusqu'a present, les segments 
repetes SLH se rencontrent dans des proteines qui sont associees a la surface 
cellulaire de bacteries, et des preuves biochimiques indiquent qu'ils se 
fixent a des composams de Tenveloppe cellulaire (17). Ainsi, SdbA peut etre 
localisee sur la surface cellulaire, au meme titre qu'OlpA (28) et OlpB (17). La 
similarite entre la region centrale de SdbA et une region presente dans les 
proteines M de Streptococcus vient a l'appui de cette hypothese. II a ete 
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suppose que dans les proteines M, cette region peut entrer en interaction 
avec des glucides de la paroi cellulaire (34). Prises dans leur ensemble, ces 
considerations suggerent que SdbA, OlpB et eventuellement ORF2p sont des 
composants de I'enveloppe cellulaire qui sont impliques dans la fixation de 
5 cellulosomes a la surface cellulaire. 

Mors que SdbA ne porte qu'un seul domaine cohesine, ces 
domaines sont repetes deux fois dans ORF2p et quatre fois dans OlpB. Ainsi, 
jusqu'a quatre molecules de CipA portant des sous-unites catalytiques Tixees 
pourraient etre groupees autour d'une molecule d'OIpB. Toutefois, ce fait 
10 seul ne suffit pas pour rendre compte de la formation d'agregats tres 
volumineux (polycellulosomes) allant jusqu'a 80 MDa, comme rapporte dans 
la reference (5). De tels agregats doivent impliquer d'autres interactions, 
eventuellement au niveau des segments repetes SLH, qui sont reconnus se 
lier entre eux (17). 
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TABLEAU 1 
Souches h acteriennes et plasm iHps 



Souches et plasmides Caracteres significatifs 



Souches 



Source de 
Reference 



Escherichia mii 



TGI [A(Iac-pro) thi supEhsdDS/ 

F tra-36proA+B+iacIqlacZAM15] 
Ml 5 (pREP4) 



Clostridium thermnr P 11i,™ 
NCIB 10682 



(12) 

(7,35), 
necessaire 
QJAexpress® 
QJAGEN Inc. 



Plasmides 

pUC18 

pBCSK- 

pQE-30 



pCT1801 



pCTl 830 



PCT1831 



PCT1832 



derive de pUC18 contenant 
un fragment Sau3A codant 
pour SdbA 

derive de pQE-30 codant pour 
le domaine cohesine de SdbA 
soude a 6 residus His 
derive de pQE-30 codant pour 
les regions centrale et COOH- 
terminale de SdbA soudees 
a 6 residus His 

derive de pQE-30 codant pour 
SdbA soude a 6 residus His 



(38) 
Stratagene® 
necessaire 
QJAexpress® 
QJAGEN Inc. 
n° CNCM 
1-1684 

n° CNCM 
1-1684 



la presente 
etude 
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LISTE DE SEQUENCES 



(1) INFORMATIONS GENERALES: 



CO OEPOSANT: 

CA) NOM: INSTITUT PASTEUR 

(B) RUE: 28 Rue du Docteur Roux 

CO VILLE: PARIS 

CE) PAYS: FRANCE 

CF) CODE POSTAL: 7S724 CEDEX IS 

Cit) TITRE DE L' INVENTION: "POLYPEPTIDE COMPORTANT UN DOMAINE 

(til) NOMBRE DE SEQUENCES: 4 

Civ) FORME DECHIFFRABLE PAR ORDINATEUR: 

CA) TYPE DE SUPPORT: Floppy disk 

CB) ORDINATEUR: IBM PC compatible 

CO SYSTEME D' EXPLOITATION: PC-DOS/MS -DOS 

CD) LOGICIEL: Patentln Release #1.0, Version #1.30 (OEB) 

C2) INFORMATIONS POUR LA SEQ ID NO: 1: 

Ci) CARACTERISTIQUES DE LA SEQUENCE- 

CA) LONGUEUR: 1893 paires de bases 

CB) TYPE: nucleotide 

CO NOMBRE DE BRINS: simple 

Cii) TYPE DE MOLECULE: ADN 

Cix) CARACTERISTIQUE : 

CA) NOM/CLE: SdbA de Clostridium thermocellum 

CB) EMPLACEMENTS.. 1893 

Cxi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 1: 

ATG AGG AAG AAA AAA AGA TTA ATA TCA TTA CTG CTT GCG GTT TTT ATC 48 
Met Arg Lys Lys Lys Arg Leu lie Ser Leu Leu Leu Ala Val Phe lie 
1 5 10 15 



S 5V I . CCG GCG GGA ATT GCA AGG GCA GA T AAA GCC TCG 
Ala Val Ala Cys Leu Pro Ala Gly lie Ala Arg Ala Asp Lys Ala Ser 

20 25 30 



96 
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Ser tTZ n G ^ f** I? ? C CGC AAT AAG GGA GAA G1T GGA "I ATA 
Sen lie Glu Leu Lys Phe Asp Arg Asn Lys Gly Glu Vol Gly Asp lie 

35 40 45 

CTT ATT GGT ACC GTA AGG ATA AAC AAT ATC AAG AAT TTC GCA GGA TTT 
Leu lie Gly Thr Val Arg He Asn Asn He Lys Asn Phe Ala Gly Phe 
50 55 60 

CAG GTA AAC ATT GTA TAT GAT CCA AAA GTC TTA ATG GCT GTT GAC CCT 
Gin Val Asn He Val Tyr Asp Pro Lys Val Leu Met Ala Val Asp Pro 
W 70 75 8 0 

GAA ACG GGG AAA GAA TTT ACT TCT TCA ACA TTT tec ctk cck err Ar-r 
«u Thr Cly Lys «„ ^ „, Ser J £ J™ <« ™ « «C ACT 

85 90 9 | 

GTA CTG AAA AAC AAT GCT TAC GGC CCA ATA CAG ATT GCG GAC AAT GAT 
Vol Leu Lys Asn Asn Ala Tyr Gly Pro lie Gin He Ala Asp Asn Asp 
I 00 105 nS 

CCG GAA AAA GGG ATA CTG AAC TTC GCG CTT GCA TAT TCA TAT ATT rrr 
Pro Glu Lys Gly He Leu Asn Phe Ala Leu Ala Tyr Ser Tyr Ue Ala 
115 120 125 

Si ^ f** GGA GTA GCG GAG 6AA AGC GGC ATA ATT GCG AAA 

Gly Tyr Lys Glu Thr Gly Val Ala Glu Glu Ser Gly He He Ala Lys 

135 14 0 

rV IT" ATA CTC CAG AAA AAG AGC ACT GCC GTA AAA TTC CAG 
He Gly Phe Lys He Leu Gin Lys Lys Ser Thr Ala Val lys £e g" 

150 155 160 

ttl ^ 7™ i GC J TG GCC GGA GCT ATT TCG GGA ACA CAG CTG TTT GAC 
Asp Thr Leu Ser Met Pro Gly Ala He Ser Gly Thr Gin Leu Phe Asp 
165 i 7 0 1?5 

Trn Itl m A FT iP ACC GGA TAT GAG GTA ATA ^G CCG GAT GTG 
Trp Asp Gly Glu Val He Thr Gly Tyr Glu Val He Gin Pro Asp Val 

i80 185 190 

CTG ACT TTG GGT GAC GAG CCT TAT GAG ACA CCG GGA ACG GAT ATT CCG 
Leu Ser Leu Gly Asp Glu Pro Tyr Glu Thr Pro Gly T*r Asp IU Pro 
195 200 205 

lit III GAC AAT ? C GCA GCA ACT CCG TCA TCC A « CCG TCA GTT ACT 
He Ser Asp Asn Pro Ala Ala Thr Pro Ser Ser Thr Pro Ser Vol Thr 
cvo 215 2 20 

CCT TCA CCG GAA GTT AAA CCG ACT CAG ACG CCT TCG CCT GCA GAA AAT 
Pro Ser Pro Glu Val Lys Pro Thr Gin Thr Pro Ser Pro Ala Glu isn 

230 235 240 



144 



192 



240 



288 



336 



384 



432 



480 



528 



576 



624 



672 



720 
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E £ £ a g 2 a s a 2 5 J" s £ « « 

250 255 

a a s a a a a a: a a a - s - - « 

^ W 265 270 

22 £ f£ le? Si £1 f M , CTT GTG GM CTT AAC ATA AA < AAG 
Lys Lys Ser 6lu Asp Asp Lys Leu Vol Glu Leu Asn He Lys Lys 

Z80 285 

SU" n * AAT f? GAT GCT TAC ATA CAA CAG CTT CCG GCG AAA TTC CTG 
Vol Glu Asn Ala Asp Ala Tyr He Gin Gin Leu Pro Ala Lys Z L eu 

295 300 

He tvs 5er £1 if ? T f AC CTG AGA ATA GCT ACA ™ CAG GGA 
He Lys Ser Asp Ala j Tyr Lys Leu Arg He Ala Thr Glu Gin Gly 

315 320 

E !K SS S g 2 a a 2 a - « - ffi E « 

330 

2 a S £ 5 2 a a a Z 2 £ £ £ sf « 

345 350 

S 5 a 2 S S a 2 £ a a « « - « ceo 

360 3 65 

Sf g 5 ffi £ a g a 25 g a - - a a £ 

375 380 

AAT TAC AAA GCC AAG GTT AAA ATA TCA ATT CCT TAC AAG CCT GAT cca 
Asn Tyr Lys Ala Lys Val Lys He 5er He Pro Tyr fys £ Asp Ala 

395 400 

AAA GAG CTG CAC AAC CAC CAG CAT ATT GTT GTA CTC CAT ATT gat nr 
lys Glu leu Glu As„ His Glu His I,e Val Val 2 £ Ue J£ % 
405 410 41 j K 

a 5 a a a 2 a a s g a a a a a 2 

425 430 

a a a a a a a a a 2 a a a a a a 

440 445 



768 



816 



864 



912 



960 



1008 



1056 



1104 



1152 



1200 



1248 



1296 



1344 
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TAT GTT TAC AAG ACT TTC GCG GAT ATT GGT TCA TAT GCC TGG GCT AAA 
Tyr Vol Tyr Lys Thr Phe Ala Asp He Gly Ser Tyr Ala Trp Ala Lys 

455 460 

AAG CAG ATA GAG GTT TTG GCT TCC AAA GGA GTA ATT AAC GGT ACA TCC 
Lys Gin lie Glu Val Leu Ala Ser Lys Gly Val lie Asn Gly Thr Ser 
b5 470 475 4g0 

GAT ACC ACT TTT ACG CCC CAG GCA GAC ATA ACA AGG GCG GAT TTC ATG 
Asp Thr Thr Phe Thr Pro Gin Ala Asp He Thr Arg Ala Asp Phe 
485 490 495 

Si ^ ? n ? T f AAG GCA ^ GGA m ACT GCC GAG GTT ACT TCC AAT 
lie Leu Leu Val Lys Ala Leu Gly Leu Thr Ala Glu Val Thr Ser Asn 
500 505 510 

TTT GAT GAT GTG TCC GAA AAA GAC TAC TAT TAT GAA TAC GTG GGA ATT 
Phe Asp Asp Val Ser Glu Lys Asp Tyr Tyr Tyr Glu Tyr Val Gly lie 
515 520 525 

GCA AAA GAG CTT GGA ATT ACG ACA GGA GTC GGA AAC AAC AAG TTC AAT 
Ala Lys Glu Leu Gly lie Thr Thr Gly Val Gly Asn Asn Lys Phe Asn 
ssv 535 540 

CCG AAA GCC AAA ATT ACA AGA CAG GAT ATG ATG GTA CTT ACA ACA AAT 
Pro Lys Ala Lys lie Thr Arg Gin Asp Met Met Val Leu Thr Thr Asn 

550 555 560 

G 1 C I . CTC A6G ir ? CA GGA AAA ATA TCG AGC ACA G GA ACC CGC GCT GAT 
Ala Leu Arg He Ala Gly Lys lie Ser Ser Thr Gly Thr Arg Ala Asp 
565 570 5?5 

£T M f AW I? I CG GAC AAG GAC CAG ATA GCT TCA TAT GCG GTT GAA 
Vol Glu Arg Phe Ser Asp Lys Asp Gin He Ala Ser Tyr Ala Val Glu 

580 585 590 

g£ vI7 J?!! £ C ^ ?/? AAA GAA GGT ATT GTA GTG GGA AGC GGC GAT 
Gly Val Ala Thr Leu Val Lys Glu Gly He Val Val Gly Ser Gly Asp 
595 600 605 

ST n A ? T I" AGG GGA AAT GCT TCA AGA GCC GAA CTT GCA GCA ATC 
He He Asn Pro Arg Gly Asn Ala Ser Arg Ala Glu Leu Ala Ala lie 
0AW 615 620 

ATA TAC AAG ATT TAC TAC AAG 
He Tyr Lys He Tyr Tyr Lys 
625 630 



1392 



1440 



1488 



1536 



1584 



1632 



1680 



1728 



1776 



1824 



1872 



1893 
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(3) INFORMATIONS POUR LA SEQ ID NO: 2: 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 4992 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(ii) TYPE DE MOLECULE: ADN 



(ix) CARACTERISTIQUE : 

(A) NOM/CLE: OlpB de Clostridium thermocellum 

(B) EMPLACEMENTS.. 4992 

Cxi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 2: 

ATG AAA CGA AAA AAT AAA GTA TTA TCA ATT TTG TTA ACT CTG CTG CTA 48 
Met Lys Arg Lys Asn Lys Vol Leu Ser He Leu Leu Thr Leu Leu Leu 
1 5 10 15 

ATA ATC TCT ACC ACA TCC GTA AAC ATG TCT TTT GCT GAA GCA ACT CCA 96 
He He Ser Thr Thr Ser Vol Asn Met Ser Phe Ala Glu Ala Thr Pro 
20 25 30 

AGT ATT GAA ATG GTT CTT GAT AAA ACT GAA GTC CAT GTA GGA GAT GTA 144 
Ser He Glu Met Vol Leu Asp Lys Thr Glu Vol His Val Gly Asp Vol 
35 40 45 

ATA ACG GCC ACA ATA AAA GTC AAT AAC ATT AGA AAA TTG GCG GGA TAT 192 
He Thr Ala Thr He Lys Val Asn Asn He Arg Lys Leu Ala Gly Tyr 
50 55 60 

CAG CTA AAT ATC AAA TTT GAC CCT GAA GTT TTA CAG CCG GTA GAC CCT 240 
Gin Leu Asn He Lys Phe Asp Pro Glu Val Leu Gin Pro Val Asp Pro 
65 70 75 80 

GCA ACA GGA GAG GAA TTT ACT GAT AAG TCC ATG CCG GTA AAT AGG GTT 288 
Ala Thr Gly Glu Glu Phe Thr Asp Lys Ser Met Pro Val Asn Arg Val 
85 90 95 

TTG CTG ACA AAC AGC AAA TAT GGA CCT ACT CCT GTG GCG GGT AAC GAT 336 
Leu Leu Thr Asn Ser Lys Tyr Gly Pro Thr Pro Val Ala Gly Asn Asp 
100 105 H0 

ATA AAG TCA GGA ATT ATT AAT TTT GCT ACG GGA TAT AAC AAT TTA ACA 384 
He Lys Ser Gly He He Asn Phe Ala Thr Gly Tyr Asn Asn Leu Thr 
115 120 125 
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GCG TAC AAA TCC AGC GGA ATA GAC GAA CAT ACA GGA ATA ATA GGA GAG 
Ala Tyr Lys Ser Ser Gly lie Asp Glu His Thr Gly He He Gly Glu 
130 135 140 

ATT GGT TTT AAA GTT TTA AAG AAA CAA AAT ACG TCT ATT AGG TTT GAA 
He Gly Phe Lys Val Leu Lys Lys Gin Asn Thr Ser He Arg Phe Glu 
145 150 155 " 160 

GAT ACA TTA TCG ATG CCC GGG GCA ATA TCG GGA ACA AGT TTG TTT GAC 
Asp Thr Leu Ser Met Pro Gly Ala He Ser Gly Thr Ser Leu Phe Asp 
165 170 175 

TGG GAT GCA GAA ACT ATA ACA GGA TAT GAG GTA ATA CAG CCG GAT CTT 
Trp Asp Ala Glu Thr He Thr Gly Tyr Glu Val He Gin Pro Asp Leu 
180 185 190 

ATA GTT GTA GAG GCA GAA CCG TTA AAA GAC GCC AGC GTG GCT CTG GAA 
He Val Val Glu Ala Glu Pro Leu Lys Asp Ala Ser Val Ala Leu Glu 
195 200 205 

CTG GAT AAG ACG AAG GTA AAA GTA GGG GAC ATA ATA ACA GCG ACG ATA 
Leu Asp Lys Thr Lys Val Lys Val Gly Asp He He Thr Ala Thr He 
210 215 220 

AAG ATA GAG AAC ATG AAG AAT TTT GCA GGG TAC CAG TTG AAT ATC AAG 
Lys He Glu Asn Met Lys Asn Phe Ala Gly Tyr Gin Leu Asn He Lys 
225 230 235 240 

TAT GAC CCG ACC ATG TTG GAG GCA ATA GAA CTG GAG ACA GGA AGT GCG 
Tyr Asp Pro Thr Met Leu Glu Ala He Glu Leu Glu Thr Gly Ser Ala 
245 250 255 

ATA GCG AAG AGG ACA TGG CCG GTT ACA GGA GGT ACT GTT CTG CAA AGT 
He Ala Lys Arg Thr Trp Pro Val Thr Gly Gly Thr Val Leu Gin Ser 
260 265 270 

GAC AAT TAT GGA AAG ACG ACT GCG GTA GCG AAT GAT GTA GGA GCA GGT 
Asp Asn Tyr Gly Lys Thr Thr Ala Val Ala Asn Asp Val Gly Ala Gly 
275 280 285 

ATA ATA AAC TTT GCT GAG GCA TAC TCG AAC CTT ACC AAA TAC AGA GAG 
He He Asn Phe Ala Glu Ala Tyr Ser Asn Leu Thr Lys Tyr Arg Glu 
290 295 300 

ACA GGT GTG GCA GAG GAG ACA GGT ATA ATA GGA AAG ATA GGC TTC AGA 
Thr Gly Val Ala Glu Glu Thr Gly He He Gly Lys He Gly Phe Arg 
305 310 315 320 

GTA CTG AAG GCA GGA AGT ACG GCT ATA AGA TTT GAG GAT ACG ACA GCG 
Val Leu Lys Ala Gly Ser Thr Ala He Arg Phe Glu Asp Thr Thr Ala 
325 330 335 
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ATG CCG GGA GCA ATA GAA GGA ACA TAC ATG TTC GAC TGG TAT GGC GAG 1056 
Met Pro Gly Ala lie Glu Gly Thr Tyr Met Phe Asp Trp Tyr Gly Glu 
340 345 350 

AAC ATC AAA GGG TAT AGC GTA GTA CAG CCT GGG GAA ATA GTG GCA GAA 1104 
Asn He Lys Gly Tyr Ser Val Val Gin Pro Gly Glu He Vol Ala Glu 
355 360 365 

GGA GAA GAG CCG GGT GAA GAG CCG ACA GAA GAG CCT GTA CCG ACA GAG 1152 
Gly Glu Glu Pro Gly Glu Glu Pro Thr Glu Glu Pro Val Pro Thr Glu 
370 375 380 

ACA CCA GTA GAT CCC ACA CCG ACA GTG ACA GAA GAG CCT GTA CCT TCA 1200 
Thr Pro Val Asp Pro Thr Pro Thr Val Thr Glu Glu Pro Val Pro Ser 
385 390 395 400 

GAG CTT CCA GAT TCC TAT GTA ATA ATG GAA CTG GAT AAG ACG AAG GTA 1248 
Glu Leu Pro Asp Ser Tyr Val lie Met Glu Leu Asp Lys Thr Lys Val 
405 410 415 

AAA GTA GGG GAC ATA ATA ACA GCG ACG ATA AAG ATA GAG AAC ATG AAG 1296 
Lys Val Gly Asp He He Thr Ala Thr He Lys He Glu Asn Met Lys 
420 425 430 

AAT TTT GCA GGG TAC CAG TTG AAT ATC AAG TAT GAC CCG ACC ATG TTG 1344 
Asn Phe Ala Gly Tyr Gin Leu Asn He Lys Tyr Asp Pro Thr Met Leu 
435 440 445 

GAG GCA ATA GAA CTG GAG ACA GGA AGT GCG ATA GCG AAG AGG ACA TGG 1392 
Glu Ala He Glu Leu Glu Thr Gly Ser Ala He Ala Lys Arg Thr Trp 
450 455 460 

CCG GTT ACA GGA GGT ACT GTT CTG CAA AGT GAC AAT TAT GGA AAG ACG 1440 
Pro Val Thr Gly Gly Thr Val Leu Gin Ser Asp Asn Tyr Gly Lys Thr 
465 470 475 480 

ACT GCG GTA GCG AAT GAT GTA GGA GCA GGT ATA ATA AAC TTT GCT GAG 1488 
Thr Ala Val Ala Asn Asp Val Gly Ala Gly He He Asn Phe Ala Glu 
485 490 495 

GCA TAC TCG AAC CTT ACC AAA TAC AGA GAG ACA GGT GTG GCA GAG GAG 1536 
Ala Tyr Ser Asn Leu Thr Lys Tyr Arg Glu Thr Gly Val Ala Glu Glu 
500 505 510 

ACA GGT ATA ATA GGA AAG ATA GGC TTC AGA GTA CTG AAG GCA GGA AGT 1584 
Thr Gly He He Gly Lys He Gly Phe Arg Val Leu Lys Ala Gly Ser 
515 520 525 

ACG GCT ATA AGA TTT GAG GAT ACG ACA GCG ATG CCG GGA GCA ATA GAA 1632 
Thr Ala He Arg Phe Glu Asp Thr Thr Ala Met Pro Gly Ala He Glu 
530 535 540 
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550 555 560 

GTA GTA CAG CCT GGG GAA ATA GTG arc taa m ^ 

vo, v., «„ Pro g Clu }™ gf « g « « «C CCC £ gj 

£ £ S £5 E £S r £ v ™ « T Z *« « «« Z ACA 
580 „i SP Pro Thr Pro Thr Vol Thr 

i85 590 

aagsssagass^sisss: 

600 605 
615 620 

3 5" £ 2J ffi g £ 2 5 SJ SJ S ffi S5 ffi £ 

635 

"S£Sg2g£CgEs;s-g« 

ssagssssgggsgss^ 

665 670 

S S g 2 K E g g S ffi £ - « S « g 
S g £ E S S g ?f - « S g g » j. « 

715 720 

a 2 s a g s a a £ a - « « 2 « £ 

25 730 735 

Pro £1 S* ? AC GGA ACA TAT ATG 11(5 GAT TGG TAT CTT AAT 
Met Pro Gly Ser He Asp Gly Thr Tyr Met Leu Asp Trp Tyr £ £ 



1680 



1728 



1776 



1824 



1872 



1920 



1968 



2016 



2064 



2112 



2160 



2208 



2256 
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AGA ATC TCT GGC TAT GTA GTA ATA CAA CCG GCG CCT ATA AAG GCG CCT 
Arg lie Sen Gly Tyr Vol Vol lie Gin Pro Ale Pro Re iyt JS JS 
33 760 765 

AGT GAC GAA CCA ATA CCA ACG GAT ACA CCA TCA GAT GAA CCC Ar* rrr 
Ser sp « u Pro I,« P ro Thr Asp Thr Pro I" £J % p" £ Pr0 ° 

775 780 

795 g00 

ShJ So S J* 1 5f * o CG CCG TCA GAG ACA CCT ^G GAG CCG ATA 
Thr Pro Ser Asp Glu Pro Thr Pro Ser Glu Thr Pro Glu Glu Pro lie 

805 818 815 

CCG ACG GAT ACA CCA TCA GAT GAA CCG ACA CCA TCA GAC GAG CCA tec 
Pro Thr Asp Thr Pro Ser Asp Glu Pro Thr Pro £ f£ £ £J 
820 825 830 

CCA TCT GAT GAA CCA ACA CCG TCT GAT GAG CCA ACA CCA TCT f AT taa 
Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro £ P™ III £J gj 

840 845 

CCG ACT CCG TCA GAG ACA CCT GAG GAG CCG ATA CCG ACG GAT AC a cca 
Pro Thr Pro Ser Glu Thr Pro Glu Glu Pro J2 £ J2 £ £ £ 

855 860 

S 21 n * o CG i? CCG TCA GAC CCA ACG GCA TCT GAC GAA CCA 
Ser Asp Glu Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser Asp Glu" Pro 

8 7 5 880 

£ K E £ g. £ S2 S 2 a*p g: £ £ « ™ - 

885 890 895 

sesssffissssssEsasfi; 

900 ^5 910 

920 925 

CCA ACA CCG TCA GAT GAA CCG ACT CCG TCA GAG ACA CCT CAC cac rrr 
Pro Thr Pro Ser Asp Glu Pro Thr Pro Ser cfu £ £ JfJ Glu' Pro 

935 940 

950 9 55 960 



2304 



2352 



2400 



2448 



2496 



2544 



2592 



2640 



2688 



2736 



2784 



2832 



2880 
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s K E £ a 2 2 2 2 z a 2 2 2 £ « 

970 9?5 

2 2 2 2 £ Z a 2 - «. TCT « T «, « <CT CCG 

980 P Pr ° J; Pro Ser Asp Clu Pro Thr Pro 

990 

2 "u° 2 2 £ « « - « « CAT ACA C« TCA GAT GAA 
995 f^L Pro Thr As P Thr Pro Ser Asp Clu 

■ uw 1005 

S£S=SaSB8£5S8SiSS 

1015 1020 

sLsasaEsaassEesss 

1040 

2 2 5 S J" £ « g « « OCT CAC CAC CCO ATA CCC 

1045 iSSa lu Glu Pro Ile Pro 

1050 1055 

2 % 2 2 2 a$p a s 2 2 ™ r s c c « *» «» 

1060 P ° JJr. Pro Ser A sp Glu Pro Thr Pro 

1065 1070 

2 2 £S 2 2 2 p Pro Thr 2 2 5 g: « 

■ WW 1085 

S £2 S 2 2 a g 2 S « « « « cca tca 

AWK) 1100 

1115 1120 

s 2 s a 2 2 2 2 £ a 2 2 2 ra « *» 

1125 P J}" Pro Thr Pr ° Ser Glu Thr 

1135 

2 a a 2 % 2 2 £ 2 2 r . aT «* - « 

1140 ASP jyr, Pro Ser Asp Glu Pro Thr Pro 

il4b 1150 

xiw 1165 



2928 



2976 



3024 



3072 



3120 



3168 



3216 



3264 



3312 



3360 



3408 



3456 



3504 



2748479 



37 

S 22 2 2 2 £2 £ £ £ - « g ccc ffi 

1180 

22 222222222 

1195 1200 

£«2 22 2222222222 

1210 1215 

Kssssssaaaassssa 

1230 

25 "2 £2 2222222- 

" 40 1245 

2 5 2 2 2 £ 2 « £ J" ? ccc .a ccc ra cc 

1250 Ser As P Glu Pro Thr Pro Ser Glu 

105 1260 

2^22222222222222 

1275 1280 

2 2 5 2 £ £ 2 2 5 s « - « e « « 

1290 1295 

ssREsaassEeasBSE 

1505 1310 

5 a £2 2 £ - £2 « « - „ ccc „ „ 

1320 1325 

2 £2 222 22 22222222" 

1335 1340 

^355 1360 

£ 2 2 2 22 2 5 2 2 2 2 2 2 2 2 

1370 1375 



3552 



3600 



3648 



3696 



3744 



3792 



3840 



3888 



3936 



3984 



4032 



4080 



4128 
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£ £ £ £ £ £ £ £ £ £ £ £ - g « « 

1385 1390 

S £ E £ £ £ £ £ £ - £ « « « occ „ 

1400 1405 

£ ££ £ £ £ £ £ £ £ £ £ £ CCO g TCT 

£S £ E £ £ £ £ £ - £ £ £ £ £ £ 
E 5 S £ £ £■ £ £ £ £ £ £ £ « ™ « 

1445 wse 1455 9 

£ ST S £ £ £ E £ £ £ £ £ £ £ £ s 

1465 1470 

a 2 £ £ £ £ £ £ £ £ £ £ £ £ £ £ 

1480 14g5 

£ E £ E £ £ £ £ £ £ £ £ - s gc ™ 

S S ~ S £ ££ £ £ £ £ £ £ £ £ « 

SJ £ £ £ £ £ £ £ £ £ £ £ £ £ g£ 

J2 £ £ £ £ £ £ Z £ £ £ £ £ £ £ £ 

1545 1550 

£ S £ £ £ £ £ £ £ £ £ £ £ £ m « 

£ £ £ £ £ £ £ £ £ £ £ £ r™ « g 

15/5 1580 



4176 



4224 



4272 



4320 



4368 



4416 



4464 



4512 



4560 



4608 



4656 



4704 



4752 
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2 Gly £ £ £ gS ST SI f" J? ™ AAG CCG " A AAC 
1585 y 6 2L Tyr P V Ph€ LyS Pro Gln As " 

1595 1600 

1605 1610 1615 

AGA GGT CCG CTT AAT GGA GCG CCG AAG CTC TTC rrr tat r-rr ^. 
Ar 9 «y Pro j Asn Cly Ala pr0 ™ Z £ £ £[ £ £ 

1625 1630 

2 S £22 C 5 5 £ £ Z £ E lIu 2 £ £ 



1645 



TAC ATT ATC GAA GAT GAG AAA GAA AAA TTC GTT AAA TTG CTC taa tat 
Tyr e Tie Glu Asp Glu Lys Glu Lys P he Vol tys E lIu SJ £ 

1655 1660 

(4) INFORMATIONS POUR LA SEQ ID NO: 3: 

Ci) CARACTERISTTQUES OE LA SEQUENCE- 

CA) LONGUEUR: 2064 paires de bases 

CB) TYPE: nucleotide 

CO NOMBRE DE BRINS: simple 

(ii) TYPE DE MOLECULE: ADN 



(ix) CARACTERISTIQUE : 

Cxi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO- 3- 

2 £ £ £ £ S 2 £ £ £ £ £ £ £ £ £ 

5 10 15 

2 £ £ £ £ £ £ £ £ SI £ £ £ £ £ £ 
£ 2 5 £ £ £ £ £ £ £ £ £ £ - £ g 



40 45 
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GAC ATA ATT ATA GCC ACA ATA AGA ATT GAC AAT ATC AAT AAC TTT Aff 
Asp lie lie lie Ala Thr He Arc He Asp Asn lie Asn Asn JhT Ser 
™ 55 60 

GGA TAT CAA TTA AAT ATA AAG TAT GAT CCG TCA TAC CTC CAG GCA GTT 
Gly Tyr Gin Leu Asn lie Lys Tyr Asp Pro Ser Tyr Leu Gin Ala Vol 
5 70 75 80 

AAT CCT TTG ACA GGA GAA CCG ATA AAA AAG AGA ACA ATG CCG GCA GTG 
Asn Pro Leu Thr Gly Glu Pro He Lys Lys Arg Thr Met Pro Ala Vaf 
85 90 95 

AAC GGC ACG GTG TTG TTA AAG GGA GAT CAG TAC ACT ATT ACT f AT m 
Asn Gly Thr Vol Leu Leu Lys Gly Asp Gin Tyr Ser Ue Thr Glu VaT 
100 185 110 

GTA GAA AAT AAC GTC GAT GAA GGG ATT TTA AAT TTT GGC AAG GGA TAT 
Val Glu Asn Asn Val Asp Glu Gly He Leu Asn Phe Gly Lys Gly Tyr 
US 120 125 y 

GCA AAT TTA ACT GAA TAC AGG AAA AGC GGA AAA CCT GAA ACA ACC crt 
A.a Asn Leu Thr Glu Tyr Arg Lys Sar «, Lys p" Z Th" Thr c" 
X3V 135 140 

ATT ATT GGC AAG ATA GGA TTT AAA GCC TTA AAG CTT GGC AAG ACG GAG 
He He Gly Lys He Gly Phe Lys Ala Leu Lys Leu Gly lyl J£ Glu 

150 155 160 

SIS fH ?f 6 i? CCC GK ATG CCT GGG GCA AAA GA * GGA ACA 
He Lys Phe Glu Asn Thr Pro Val Met Pro Gly Ala Lys Glu Gly Thr 

165 170 i 7 5 

CTG CTG TTT GAC TGG GAT GCA GAA ACT ATA ACG GAA TAT AAT GTA ATT 
Leu Leu Phe Asp Trp Asp Ala Glu Thr He Thr Glu Tyr Asn Vat Ue 
180 185 190 

CAG CCT AAA GAA CTT GCA ATA ACG TTA CCG GAC GAT GCA CAC ATT GCT 
Gin Pro Lys Glu Leu Ala He Thr Leu Pro Asp Asp Ala His iVe All 
ig 5 200 205 

TTG GAA CTT GAC AAG ACA AAA GTG AAA GTG GGA GAT GTA ATT GTT CCC 
Leu Glu Leu Asp Lys Thr Lys Val Lys Val Gly Asp Vat Ue VaT Ala 
CM 215 220 

t£ m f M ^ f AG AAT ATG ACT AGT ATG GCG 6GA ATT CAG GTA AAT 
^ Val Lys Ala Lys Asn Met Thr Ser Met Ala Gly He Gin Val Asn 

Z30 235 240 

III fli ? T GAC ^ A GTA CAG GCG ATT GAT CCT CCC ACG GGA 
He Lys Tyr Asp Pro Glu Val Leu Gin Ala He Asp Pro Ala Thr Gly 

245 250 255 



192 



240 



288 



336 



384 



432 



480 



528 



576 



624 



672 



720 



768 
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S£ES£K£22SSSS:222 

Z65 270 

25a«!K22S25Z5S£5 

280 2g5 
Z95 300 

SSMESssgffisgssrgE 

315 320 

ss2S£E2S£SS22g«£ 

330 335 

z s s 5 £ ffi 5 g g 2 « - « » „ « 

350 

S! SK a JJ g * T tTs 2f ffi 2 s P ccc ? c AAA Arr act ™ 

355 y Y ;2 6l " Pro Asp ^ Ile Thr Vol 

360 365 

375 380 

395 400 
410 415 

a S S £ 2 2 5 s s £ g g g g 2 s 

4Z5 430 

5 £ 5 g g Aia ST g £ 2 s 2 « « « £ 

440 445 

Pro £ S T er C £ £ £ £ £ £ f AA AAA «* ™ CCA ACG 
450 ys kpo Thr Pro Thr Ala Thr Lys Lys Pro Glu Pro Thr 

455 460 



816 



864 



912 



960 



1008 



1056 



1104 



1152 



1200 



1248 



1296 



1344 



1392 
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21 S! 2* ? C GAA CCT GAA ATA CCG GGC ACT GTT GGA ATA CAT 
Glu lie Clu Glu Pro Glu Pro Glu Re Pro Gly Thr Vol Gly lie His 

470 475 480 

£ 2 2 JEI SI I AT « G ? AC MA ATG ™ AGA CCT GAA AAG 
y P Tyr Leu ^ Gl y T y Pro Asp Lys Met Phe Arg Pro Glu Lys 
485 490 " 495 

*r SI it A^ 2 A £* GCC GTG ATT 771 GCA AAA CTT TTG GGA 
Ser lie Thr Arg Ala Glu Ala Ala Vol lie Phe Ala Lys Leu Leu Gly 

505 510 

GCA AAC GAA AAT ACA AAG ATA AAC TAT AAT GTT TCA TAC ACC GAT GTT 
Ala Asn Glu Asn Thr Lys lie Asn Tyr Asn Vol Ser Tyr Thr A £ Vol 
31:> 520 525 

A G sp Se G r £ SI K ff* f I* GGA ATC AAA ^ GTA TCA TAC AAG 
Asp Ser Ser His Trp Ala Ser Trp Ala He Lys Phe Val Ser Tyr Lys 

535 540 

Us* SS pII J£ ? T £ CT GAT GGC TCG ™ AAG CCT AAT CAG AAT 
Lys Leu Phe Thr Gly Tyr Pro Asp Gly Ser Phe Lys Pro Asn Gin Asn 

555 56 0 

ATA ACG AGA GCC GAA TTT TCA ACG GTT GTG TTT AAG CTT CTT GTA TfT 
He Thr Arg Ala Glu Phe Ser Thr Val Val Phe fys Lei Lei Vat £ 
565 570 575 

GAG AAA GGT CTA AAA GAA GAA AAG ATT GAA AAG TCC AAG TTT ffT tat 
Glu Lys Gly Leu Lys Glu Glu Lys lie Glu £ £ £ £ gj GA p T 

585 590 

ACA AAG GGC CAC TGG GCA CAA CAG TTT ATT GAA CAG CTG TCA GAC CTT 

Thr Lys Gly His Trp Ala Gin Gin Phe lie Glu- Gin Leu Se^sp Leu " 
595 600 605 

GGA TAC ATC AAC GGA TAT CCT GAT GGT ACA TTC AAG CCC AAC AAC AAT 1877 
Gly Tyr He Asn Gly Tyr Pro Asp Gly Thr Phe Lys Pro Asn Asn Asn " 
DiW 615 620 

ATC A ll CGA . ^ ^ AGT GTT GCC CTG ATA AAC AGA GCT ATG GGA AGA 1970 
lie Lys Arg Ser Glu Ser Val Ala Leu lie Asn Arg Ala Met Gly Arg 

630 635 > 64 9 

GGG CCT TTG CAT GGC GCA CCG CAG GTA TTC GAG GAT GTT CCT CAG ACA 1<*« 
Gly Pro Leu His Gly Ala Pro Gin Val Phe Glu Asp ™i£o Vln Thr *** 
645 650 655 

CAC 1 Sf, C SL 1 ]? M ot G f T ATT GCA « Q GGC GTG CTC AAT CAC AGA TAC 2016 
His Trp Ala Phe Lys Asp He Ala Glu Gly Val Leu Asn His Arg Tyr 

660 665 670 



1440 



1488 



1536 



1584 



1632 



1680 



1728 



1776 
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AAA CTG GAG AAT GAG GGC AAA GAA CAA TTO GTG GAG ATA ATT CAT AAC 2K4 

Lys Leu Asp Asn «u Gly Lys Clu Gin Leu Leu Glu lie He Asp Asn 

680 6g5 
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DESCRIPTION DE LA SEQUENCE : SEQ ID N°: 4: 
SEQUENCE NUCLEOTinmil E DE LA PRnj FiKip r.pft 

ATGACAAAAGTCATCAGTATGCTCITAGTTGTGGCTATGCTGACCACGATTTTTGCGGCGATGATAC 
CGC 

AGACAGTATCGGCGGCCACAATGACAGTCGAGATCGGCAAAGTTACAGCAGCCGTTGGATCAAAA 
GTAGA 

AATACCTATAACCCTGAAAGGAGTGCCATCCAAAGGAATGGCCAATTGCGACTTCGTATTGGGTTA 
TGAT 

S?^ TGTGCTGGAAGTAACAGAAGTAAAACCAGGAAGCATAATAA AAGATCCGGATCCTAGCAA 
G AGCT 

TTGATAGCGCAATATATCCGGATCGAAAGATGATTGTATTTCrGTTTGCAGAAGACAGTGGAAGAG 
GAAC 

GTATGCAATAACTCAGGATGGAGTATTTGCAACAATTGTAGCCACTGTCAAATCAGCTGCAGCGGC 
ACCG 

ATTACTTTGCTTGAAGTAGGTGCATTTGCGGA 
CGG 

GCGGAGTAAATCTTGGTAGTTCCGTACCGACAACACAGCCAAATGTTCCGTCAGACGGTGTGGTAG 
TAGA 

AA JT GGCAAAG ™ CGGGATCT GTTGGAACT^^ 
ATCC 

AAAGGAATAGCAAACTGCGACTTTGTGTTCAGATATGATCCGAATGTATTGGAAATTATAGGGATA 
GATC 

CCGGAGACATAATAGTTGACCCGAATCCTACCAAGAGCTTTGATACTGCAATATATCCTGACAGAA 
AGAT ~ * ^' ' ~ Ji 1 

AATAGTATTCCTGTTTGCGGAAGACAGCGGAACAGGAGCGTATGCAATAACTAAAGACGGAGTATT 
TGCA 

AAAATAAGAGCAACTGTAAAATCAAGTGCTCCGGGCTATATTACTTTCGACGAAGTAGGTGGATTT 
GCAG 

ATAATGACCTGGTAGAACAGAAGGTATCATTTATAGACGGTGGTGTTAACGTTGGCAATGCAACAC 
CGAC 

CAAGGGAGCAACACCAACAAATACAGCTACGCCGACAAAATCAGCTACGGCTACGCCCACCAGGC 
CATCG 

GTACCGACAAACACACCGACAAACACACCGGCAAATACACCGGTATCAGGCAATTTGAAGGTTGA 
ATTCT 

ACAACAGCAATCCTTCAGATACTACTAACTCAATCAATCCTCAGTTCAAGGTTACTAATACCGGAA 
GCAG 

TGCAATTGATTTGTCCAAACTCACATTGAGATATTATTATACAGTAGACGGACAGAAAGATCAGAC 
CTTC 

TGGTGTGACCATGCTGCAATAATCGGCAGTAACGGCAGCTACAACGGAATTACTTCAAATGTAAAA 
GGAA 

CATTTGTAAAAATGAGTTCCTCAACAAATAACGCAGACACCTACCTTGAAATAAGCTTTACAGGCG 
GAAC 

TCTTGAACCGGGTGCACATGTTCAGATACAAGGTAGATTTGCAAAGAATGACTGGAGTAACTATAC 
ACAG 

TCAAATGACTACTCATTCAAGTCTGCTTCACAGTTTGTTGAATGGGATCAGGTAACAGCATACTTGA 
ACG 

GTGTTCTTGTATGGGGTAAAGAACCCGGTGGCAGTGTAGTACCATCAACACAGCCTGTAACAACAC 
CACC 

TGCAACAACAAAACCACCTGCAACAACAAAACCACCTGCAACAACAATACCGCCGTCAGATGATCC 
GAAT 

GCAATAAAGATTAAGGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAATATACCTGTAAG 
ATTCA 

GTGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATGACCCGAATGTACTTG 
AGAT 
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AATAGAGATAAAACCGGGAGAArrGATAGrrGACCCGAATCCTGACAAGAGCTTrGATACTGCACT 
CCTCACAGAAAGATAATAGTA^ 

ACGGAGTATrTGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGGACTCAGTGTAATCA 

TGTAGAAGTAGGCGGAmGCGAACAATGACCrrGTAGAACAGAGGACACAGTTCTrTGACGGTGG 

AATGTTGGAGATACAACAGTACCTACAACACCTACAACACCTGTAACAACACCGACAGATGATTCG 

CAGTAAGGATTAAGGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAGAATACCTGTAAGA 

CGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATGACCCGAATGTACTrGA 

ATAGAGATAGAACCGGGAGACATAATAGTTGACCCGAATCCTGACAAGAGCTITGATACTGCAGTA 

CTGACAGAAAGATAATAGTATrCCTGTITGCGGAAGACAGCGGAACAGGAGCGTATGCAATAACTA 

CGGAGTATTTGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGGACTCAGTGTAATCAA 

GTAGAAGTAGGCGGAmGCGAACAATGACCTTGTAGAACAGAAGACACAGTTCrrTGACGGTGGA 

ATGTTGGAGATACAACAGAACCTGCAACACCTACAACACCTGTAACAACACCGACAACAACAGAT 

?AAGf AGTAAGGAmAAGTGGACACA0TAAATGCAAA ^ 

TTCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATGACCCGAATGTA 

AGATAATAGAGATAGAACCGGGAGACATAATAGTTGACCCGAATCCTGACAAGAGCTTrGATACTG 

ATATCCTGACAGAAAGATAATAGTATTCCTGTITGCGGAAGACAGCGGAACAGGAGCGTATGCAAT 

AAAGACGGAGTATITGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGGACTCAGTGT 

AA^GTAGAAGTAGGCGGATTTGCGAACAATGACCTrGTAGAACAGAAGACACAGTrCTITGACG 

AGTAAATGTTGGAGATACAACAGAACCTGCAACACCTACAACACCTGTAACAACACCGACAACAA 

GATCTGGATGCAGTAAGGATTAAAGTGGACACAGTAAATGCAAAACCGGGAGACACAGTAAGAAT 

TAAGATTCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACrrTGTATACAGCTATGACCCGA 

ACTTGAGATAATAGAGATAGAACCGGGAGACATAATAGTTGACCCGAATCCTGACAAGAGCrrTGA 

GCAGTATATCCTGACAGAAAGATAATAGTATTCCTGT7TGCAGAAGACAGCGGAACAGGAGCGTAT 

TAACTAAAGACGGAGTAT7TGCTACGATAGTAGCGAAAGTAAAAGAAGGAGCACCTAACGGACTC 

AATCAAATTTGTAGAAGTAGGCGGATITGCGAACAATGACCTTGTAGAACAGAAGACACAGTTCrr 

JaJaT 0 ™^™^^ 

CAGATGATCTGGATGCAGTAAGGATTAAAGTGGACACAGTAAATGCAAAACCGGGAGACACAGTA 
ACCTGTAAGATTCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACAGCTATGA 
AATCTACTTGAGATAATAGAGATAGAACCGGGAGAATTGATAGTTGACCCGAATCCTACCAAGAGC 
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ATACTGCAGTATATCCTGACAGAAAGATGATAGTArrCCTGrTTG^ 

TGCAATAACTGAAGATGGAGTATTTGCTACGATAGTAGCGAAAGTAAAATCCGGAGCACCTAACGG 

AGTCTAATCAAATTTGTAGAAGTAGGCGGATTTGCGAACAATGACCTTGTAGAACAGAAGACACAG 

^GACGGTGGAGTAAATGTTGGAGATACAACAGAACCTGCAACACCTACAACACCTGTAACAACAC 

AACAACAGATGATCTGGATGCAGTAAGGATTAAAGTGGACACAGTAAATGCAAAACCGGGAGACA 

AGAATACCTGTAAGATTCAGCGGTATACCATCCAAGGGAATAGCAAACTGTGACTTTGTATACA^ 

ACCCGAATGTACTrOAGATAATAGAGATAGAACCGGGAGACATAATAGTTGACCCGAATCCTGACA 

C^GATACTGCAGTATATCCTGACAGAAAGATAATAGTATTCCTGTITGCAGAAGACAGCGGAAC 

?AAcT 5CAATAA ^ 

GACTCAGTGTAATCAAATITGTAGAAGTAGGCGGATTrGCGAACAATGACCrrGTAGAACAGAAG 

G^CTITGACGGTGGAGTAAATGTTGGAGATACAACAGTACCTACAACATCGCCGACAACAACACC 

GAGCCGACGATAACTCCGAACAAGTTGACACTTAAGATAGGCAGAGCAGAAGGAAGACCTGGAGA 

TGGAAATACCGGTTAACrrGTATGGAGTACCTCAAAAAGGAATAGCAAGCGGTGACTrCGTAGTAA 

TGACCCGAATGTACTTGAGATAATAGAGATAGAACCGGGAGAATTGATAGrTGACCCGAATCCTAC 

AGCT^GATACTGCAGTATATCCTGACAGAAAGATGATAGTATTCCTGriTGCGGAAGACAGCGGA 

GAGCGTATGCAATAACTGAAGATGGAGTATTTGCTACGATAGTAGCGAAAGTAAAAG^ 

AGG^TTCAGTGCAATAGAAATTTCTGAGTTTGGTGCATTrGCAGATAATGATCTGGTAGAAGTC^^ 

GACCTTATCAATGGTGGAGTACTTGTAACTAATAAACCTGTAATAGAAGGATATAAAGTATCCGGA 

TrrTGCCAGACTTCTCCTTCGACGCTACTGTTGCACCACTTGTAAAGGCCGGATTCAAAGTTGAAAT 

AGGAACAGAATTGTATGCAGTAACAGATGCAAACGGATACTTTGAAATAACCGGAGTACCTGCAA 

AGCGGATATACATTGAAGATTTCAAGAGCAACmcrrGGACAGAGTAArrGCAAATGrrGTAG^ 

GAGATACTTCAGrrrCAACTTCACAGGCTCCAATAATGATGTGGGTAGGAGACATAGTGAAAGACA 

TATCAACCTGTTGGACGTrGCAGAAGTTATCCGTTGCTTCAACGCTACTAAAGGAAGCGCAAACTA 

GAAC5AACTTGACATTAATAGAAACGGCGCAATTAACATGCAAGACATAATGATTGTTCATAAGCAC 
GAGCTACATCAAGTGATTACGACGCACAGTAA 
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SEQUENCF DF LA BBQIBNE ^ipft 



ITLU^GAFADNDLVEISTTFVAOCVN^^ 



AKIF 
3 SVP 
FWC 



TPTRPSVP1 

DHAAIIGSNGSYNGITSNVKGTFVKMSSSTT^AD^ ' ' ' VI ^ KD Q™C 



AP^SSAPG YITTOEVGGFADNDLVEQKVSFIDGG VNVGNATPTKGATPTNTATPT 1 ' S * T/ tptr 



5^n^^^ TCAYA,TKDGVFATIVAKVKSGAPN GLSVIKFVEVGGFANNDLVEORTOFFDTrvM 

^ k v ksg a png ls vi kfv e vg 
vdtvnakpgdtvripvrfsg 
lfa edsgtg a y a itkdg vfa 
:patpttpvttptttddldav 
i1vdpnpdksfdtavypdrk1 

NDLVEQKTQFFDGGVNVGE 
lANCDFVYSYDPNVLEIIEIEf 
CVKSGAPNGLSVIKFVEVGG 
)TVNAKPGDTVRJPVRFSGIP 

GRAEGllPGDTVEIPVNLYGVPQKGIASGDFVVSYDPNVLEnEIEPGELIVDPNP™ 



wrikvdtvnakpgdtvripvrfsg 
kiivflfaedsgtgayaitkdgvfa 
3 dttepatpttpvttptttddld a v 
iepgdi1vdpnpdksfdtavypdrki 
;gfanndlveqktqffdggvnvgd 
ipskgiancdfvysydpnvleiieiep 
tivakvksgapnglsvikfvevgg 

SKGIANCDFVYSYDPNv7.EIIEIEPGWIVDPN^ 



•DTAVYPDRKIIVFLFAEDS 
FFDGGVNVGDTTEPATPT 
'DPNVLE11EIEPGDIIVDPN 
SVIKFVEVGGFANNDLVE 
VRIPVRFSGIPSKGIANCDf 

----- - - ■mmrm v m S » W MM MS I Vl\ 1 ▼ 1 I T I LI ClL/OVJ I U /\ Y * ^ """* * '**""** ^ ' **** * " - -- --- 

ANNDLVEQKTQFFDGGVNVGD7TEPATPTTPVTTP1 
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REVINDICATIONS 



1. Compose sur lequel est capable de se fixer de facon covalente 
ou non au moins un domaine cohesine de type II. 

2. Compost selon la revendication 1, caracterise en ce que le 
domaine confine de type II provient d'une bacterie cellulolytique. 

3. Compose selon la revendication 2, caracterise en ce que le 
domaine cohesine de type II provient d'une souche de Clostridium, et 
notamment de Clostridium thermocellum. 

4. Compose selon la revendication 3, caracterise en ce que le 
domaine cohesine de type II provient d'une proteine de Clostridium 
thermocellum ou d'un fragment de celle-ci compris entre 50 et 600 acides 
amines. 

5. Compost selon la revendication 3, caracterise en ce que le 
domaine cohesine de type II provient d'une proteine de Clostridium 
thermocellum choisie parmi SdbA, OlpB et ORF2p. ou d'une proteine 
homologue. 

6. Compos* selon la revendication 5, caracterise en ce qu'il 
comprend la sequence de 165 acides amines substantiellement telle que 
representee dans 1'IDS n' 1 de 1'acide amine n' 27 a 1'acide amine n»210 de 
la sequence de la proteine SdbA ou une sequence homologue ou un 
fragment de cette sequence ou d'une sequence homologue ayant une 
activite cohesine de type II. 

7. Compose selon la revendication 5, caracterise en ce qu'il 
comprend comme domaine cohesine de type II l'une des sequences de la 
proteme OlpB choisies parmi la sequence des acides amines n' 28 au n° 190 
la sequence des acides amines n° 207 au n° 362, la sequence des acides 
amines n' 409 au n' 564 et la sequence des acides amines n« 607 au n' 762 de 
1'IDS n* 2 ou une sequence homologue a l'une de ces sequences ou un 
fragment de ces sequences d'au moins 50 acides amines ayant une activite 
cohesine de type II. 

8. Compose selon la revendication 5, caracterise en ce qu'il a 
un domaine cohesine de type II, une sequence de la proteine ORF2p choisie 
parmi la sequence des acides amines n' 38 a 194 et la sequence des acides 
amines n' 209 a 364 de 1'IDS n' 3, ou une sequence homologue a ces 
sequences ou un fragment de ces sequences d'au moins 50 acides amines 
ayant une activity cohesine de type II 
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9. Compose selon Tune des revendications 1 a 8, caracterise en 
ce qu'il s'agit essentiellement d'un polypeptide ou d'une proteine. 

10. Compose selon la revendication 9, caracterise en ce qu'il 
s'agit d'une proteine a activite enzymatique. 

11. Compost selon Tune des revendications 1 a 10, caracterise 
en ce qu'il comporte au moins un autre domaine cohesine qui n'est pas de 
type II et/ou un domaine dockerine. 

12. Proteine SdbA de Clostridium thermocellum r dont la 
sequence en acides amines est la sequence complete de 63 1 acides amines 
substantiellement telle que representee sur 1'IDS n° 1. 

13. Fragment d'une proteine selon l'une des revendications 1 a 
12 ou d'une proline homologue, caracterise en ce qu'il s'agit d'un 
domaine cohesine de type II. 

14. Compose selon l'une des revendications 1 a 11, caracterise 
en ce qu'il comporte au moins un fragment non proteique. 

15. Fragment d'ADN, caracterise en ce qu'il comporte au moins 
une sequence codant pour un domaine cohesine de type II. 

16. Fragment d'ADN selon la revendication 15, codant pour la 
proteine SdbA ou fragment de celle-ci. 

17. Fragment d'ADN, selon la revendication 15, caracterise en 
ce qu'il comporte pour sequence substantiellement Ies nucleotides 82 a 573 
dans 1'IDS n° 1 codant pour le domaine cohesine de type II de SdbA. 

18. Fragment d'ADN selon la revendication 15, comportant 
substantiellement la sequence de nucleotides 1 a 1893 de 1'IDS n° 1 codant 
pour la proteine SdbA. 

19. Fragment d'ADN selon la revendication 15, caracterise en 
ce qu'il a substantiellement pour sequence Tune des sequences codant pour 
un domaine cohesine de OlpB choisies parmi la sequence des nucleotides 85 a 
570, la sequence des nucleotides 619 a 1095 et la sequence des nucleotides 
1225 k 1689 et la sequence des nucleotides 1819 a 2189 dans 1'IDS n° 2. 

20. Fragment d'ADN selon la revendication 15, caracterise en 
ce qu'il a substantiellement pour sequence Tune des sequences codant pour 
un domaine cohesine de ORF2 choisies parmi la sequence des nucleotides 109 
k 582 et la sequence des nucleotides n° 625 a 1092 dans 1'IDS n° 3. 

21. Fragment d'ADN caracterise en ce qu'il a pour sequence 
une sequence compiementaire ou homologue ou compiementaire de 
rhomologue d'un fragment selon Tune des revendications 15 a 20. 
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22. Fragment d'ADN caracterise en ce qu'il est capable de 
s'hybrider dans des conditions faiblement stringentes avec un fragment 
selon Tune des revendications 15 a 21. 

23. Souche de Ecoli deposee a ia CNCM de I'Institut Pasteur sous 
le n* 1-1683 transformee par le plasmide pCT 1801. 

24. Souche de Ecoli deposee a la CNCM de I'Institut Pasteur sous 
le n°I-1684 transformee par le plasmide pCT 1830. 

25. Compose caracterise en ce qu'il comporte au moins un 
domaine dockerine de type II. 

26. Complexe comportant au moins un compost selon I'une des 
revendications 1 a 14 lie par une interaction C/D de type II avec un 
compos* comportant au moins un domaine dockerine de type II, chaque 
compos* constituant un Element du complexe. 

27. Complexe selon la revendication 26, caracterise en ce que 
15 l'affinite du complexe est au moins egal a 105 M. 

28. Complexe selon l'une des revendications 26 et 27, 
caracterise en ce qu'il comporte au moins trois elements dont deux sont lies 
par une Interaction C/D autre que de type II. 

29. Complexe selon la revendication 28, caracterise en ce que 
20 deux elements sont lies par une interaction C/D de type I. 

30. Complexe multimerique selon les revendications 28 et 29 
caracteris* en ce qu'il comprend entre 1 et 50 elements associes entre eux et 
de preference 1 et 20. 

31. Complexe selon la revendication 30 caracterise en ce qu'il 
25 comprend au moins deux domaines d'interaction C/D de type II. 

32. Complexe selon la revendication 30 caracterise en ce qu'il 
comprend au moins une interaction C/D de type I associe a une interaction 
C/D de type II. 

33. Complexe multimerique selon l'une des revendications 28 a 
) 32, caracterise en ce que les elements du complexe sont essentiellement des 

proteines. 

34. Complexe selon l'une des revendications 26 a 33, caracterise 
en ce qu'au moins 1'un des elements comprend un fragment proteique riche 
en proline et/ou en hydroxy amino acide. 

35. Complexe multimerique selon l'une des revendications 33 
et 34, caracterise en ce que certains des elements du complexe sont des 
enzymes. 
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36. Vecteur ^expression comprenam un fragment d'ADN 
selon 1'une des revendications 15 a 22, place sous le eontrole d'elements 
assurant son expression dans une cellule note. 

37. Souche de £,£011 transformee par un vecteur selon la 
revendication 36. 

38. Procede de preparation d'un polypeptide selon Tune des 
revendications 1 a 14, caracterise en ce qu'on realise la culture de cellules 
hates transferases a l'aide d'un vecteur selon la revendication 36 ou par 
culture d'une souche selon la revendication 37. 

39. Composition enzymatique comprenant un complexe selon 
Tune des revendications 26 a 35. 

40. Composition enzymatique selon la revendication 39. 
comprenant deux enzymes liees par une interaction C/D de type II. 

41. Composition selon les revendications 39, caracterisee en ce 
que le complexe multimerique comporte un compose selon I'une des 
revendications 1 a 11 liee a un domaine dockerine de la proteine CipA, lie a 
une premiere enzyme, et le second compose comprenant un domaine 
dockerine d'une sous unite catalytique du complexe cellulytique de 
Clostridium thermorpiii.m n* * „^ ^ ffnnr | r enzyme. 

42. Utilisation du complexe multimerique selon l'une des 
revendications 26 a 35, caracterisee en ce que ledit complexe multimerique 
potentialise la synergie des elements du complexe. 

43. Utilisation du complexe multimerique selon l'une des 
revendications 39 a 42, caracterisee en ce que ledit complexe assure la 
potentialisation de la composition enzymatique. 

44. Procede de detection d'un antigene ou d'un anticorps, 
caracteris6 par la mise en contact d'un complexe multimerique selon l'une 
des revendications 26 a 35 avec une solution contenant un anticorps ou un 
antigene d'interet et la revelation de la reaction entre le complexe 
multimerique et Pantigene ou 1'anticorps. 
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